Soutenance de thèse de Yassine GUERMAZI

Ecole Doctorale

Mathématiques et Informatique de Marseille

Spécialité

Informatique

établissement

Aix-Marseille Université

Mots Clés

Résolution dentités,Préparation de données,Transformeurs,Appariement dentités,Plongement de mots,Apprentissage automatique,

Keywords

Entity Resolution,Data Preparation,Transformers,Entity Matching,Word Embedding,Machine Learning,

Titre de thèse

Résolution dentités à base de transformeurs : application à la validation des noms et adresses dentreprises

Transformers-based Entity Resolution: application to the validation of company names and addresses

Date

Lundi 3 Juillet 2023 à 10:30

Adresse

LIS UMR 7020 CNRS / AMU / UTLN Aix Marseille Université Campus de Saint Jérôme Bat. Polytech 52 Av. Escadrille Normandie Niemen 13397 Marseille Cedex 20

Amphithéâtre Gérard Jaumes (Bâtiment Polytech)

Jury

Directeur de these	M. Omar BOUCELMA	Aix Marseille Université
Rapporteur	Mme Vargas-Solar GENOVEVA	UMR 5205 CNRS LIRIS - Université Claude Bernard Lyon 1
Rapporteur	M. Ladjel BELLATRECHE	ISAE - ENSMA, Université de Poitiers
Examinateur	Mme Ana-Maria OLTEANU-RAIMOND	LASTIG UMR (IGN, Univ. Paris Est Marne la Vallée et EIVP)
Président	M. Alexis NASR	Aix Marseille Université
CoDirecteur de these	Mme Sana SELLAMI	Aix Marseille Université

Résumé de la thèse

Pour de nombreuses entreprises, la validation des entités commerciales, définies par une structure comprenant la raison sociale et ladresse, est une activité cruciale pour faciliter et sécuriser les échanges entre partenaires, comme par exemple dans le processus KYC (Know Your Customer) ou bien, tout simplement, faire parvenir un colis à destination. Cette activité de validation soulève des défis complexes qui sont liés principalement à la qualité de ces entités et leur fiabilité. Dans cette thèse, nous nous proposons daborder cette problématique en répondant aux questions suivantes : 1) Comment qualifier et structurer ces entités en prenant en compte les problèmes liés à la qualité (e.g. typos, abréviations), et lincomplétude des données, la polysémie (i.e. des mêmes noms de lieux pouvant faire référence à différentes localisations), la présence de doublons mais aussi leur fiabilité (e.g., adresse dentreprise inexistante)? et 2) Comment intégrer ces différentes entités, les sources de données qui les contiennent, afin de disposer dun référentiel unique ? La résolution dentités nous fournit un cadre formel pour répondre à ces questions, notamment en essayant didentifier différentes descriptions qui réfèrent à une même entité du monde réel. Les solutions récentes pour la résolution dentités commerciales, particulièrement pour lappariement des adresses, reposent sur des modèles (statiques) neuronaux de plongement de mots. Néanmoins, elles ne considèrent pas la polysémie ni la validité dadresses. De plus, les plongements de mots générés par ces modèles sont principalement linguistiques et ne prennent en compte le contexte de géolocalisation. Doù la nécessite dincorporer une connaissance supplémentaire permettant didentifier les adresses ayant la même localisation mais décrites différemment. Cest dans ce cadre formel que nous avons développé une méthodologie comportant deux phases : (1) la préparation des adresses dans lobjectif de les valider et, (2) lappariement des entités afin de vérifier leur existence. Pour la préparation, nous proposons une approche de parsing des adresses et leur classification, qui repose sur RoBERTa, un modèle de langage pré-entraîné à base de transformeurs, permettant didentifier les cas de polysémie et de vérifier la validité des adresses. Pour lappariement des entités, nous proposons une approche de plongements contextuels de mots générés par RoBERTa, et augmentés par des connaissances géographiques pour mieux capturer les similarités sémantiques entre les entités. Enfin, pour évaluer nos approches, nous avons développé le framework GeoRoBERTa-ER pour la résolution dentités et nous avons mené des expérimentations sur des jeux de données réels montrant lefficacité de nos approches par rapport à des approches existantes à base dapprentissage automatique (profond) issues de la littérature.

Thesis resume

For many companies, the validation of business entities, defined by a structure including company name and address, is a crucial activity to facilitate and secure exchanges between partners, such as in the KYC (Know Your Customer) process or, simply, to get a package to its destination. This validation activity raises complex challenges that are mainly related to the quality of these entities and their reliability. In this thesis, we propose to address this issue by answering the following questions: 1) How to qualify and structure these entities by taking into account the problems related to the data quality (e.g. typos, abbreviations, incomplete data), the polysemy (i.e. a place name that may refer to different places in a country or worldwide), the presence of duplicates and the data reliability (e.g., an invalid companys address) ? and 2) How to integrate these entities (from different data sources) to have a unique data repository, that acts as a ground truth database? Entity resolution provides us with a formal setting for answering these questions, in particular by attempting to identify different descriptions that refer to the same real-world entity. Recent solutions for business entity resolution, especially for address matching, rely on (static) neural word embedding models. However, these solutions do not consider polysemy or address validity. Moreover, the models used in these solutions produce address embeddings mainly from linguistic contexts and do not take into account the geolocation contexts. Hence, additional knowledge needs to be considered, to improve the matching of addresses that share the same location but have different representations. Within this formal setting, we have developed a two-phase methodology: (1) addresses preparation in order to validate them, and (2) entities matching in order to verify their existence. For the preparation, we propose an approach for address parsing and classification, which relies on RoBERTa, a pre-trained language model based on transformers, allowing to identify the polysemy cases and to check the validity of addresses. For the entity matching, we propose an approach based on contextual word embedding generated by RoBERTa, that leverages geographical knowledge to better capture semantic similarities between entities. Finally, to evaluate our approaches, we developed GeoRoBERTa-ER, a novel framework for entity resolution, and conducted experiments on real datasets showing the effectiveness of our approaches compared to existing Machine (Deep) Learning-based approaches from the literature.

Formulaire de recherche

Résumé de la thèse

Thesis resume