Soutenance de thèse de Yassine GUERMAZI

Ecole Doctorale
Mathématiques et Informatique de Marseille
Spécialité
Informatique
établissement
Aix-Marseille Université
Mots Clés
Résolution d’entités,Préparation de données,Transformeurs,Appariement d’entités,Plongement de mots,Apprentissage automatique,
Keywords
Entity Resolution,Data Preparation,Transformers,Entity Matching,Word Embedding,Machine Learning,
Titre de thèse
Résolution d’entités à base de transformeurs : application à la validation des noms et adresses d’entreprises
Transformers-based Entity Resolution: application to the validation of company names and addresses
Date
Lundi 3 Juillet 2023 à 10:30
Adresse
LIS UMR 7020 CNRS / AMU / UTLN Aix Marseille Université – Campus de Saint Jérôme – Bat. Polytech 52 Av. Escadrille Normandie Niemen 13397 Marseille Cedex 20
Amphithéâtre Gérard Jaumes (Bâtiment Polytech)
Jury
Directeur de these M. Omar BOUCELMA Aix Marseille Université
Rapporteur Mme Vargas-Solar GENOVEVA UMR 5205 CNRS LIRIS - Université Claude Bernard Lyon 1
Rapporteur M. Ladjel BELLATRECHE ISAE - ENSMA, Université de Poitiers
Examinateur Mme Ana-Maria OLTEANU-RAIMOND LASTIG UMR (IGN, Univ. Paris Est Marne la Vallée et EIVP)
Président M. Alexis NASR Aix Marseille Université
CoDirecteur de these Mme Sana SELLAMI Aix Marseille Université

Résumé de la thèse

Pour de nombreuses entreprises, la validation des entités commerciales, définies par une structure comprenant la raison sociale et l’adresse, est une activité cruciale pour faciliter et sécuriser les échanges entre partenaires, comme par exemple dans le processus KYC (Know Your Customer) ou bien, tout simplement, faire parvenir un colis à destination. Cette activité de validation soulève des défis complexes qui sont liés principalement à la qualité de ces entités et leur fiabilité. Dans cette thèse, nous nous proposons d’aborder cette problématique en répondant aux questions suivantes : 1) Comment qualifier et structurer ces entités en prenant en compte les problèmes liés à la qualité (e.g. typos, abréviations), et l’incomplétude des données, la polysémie (i.e. des mêmes noms de lieux pouvant faire référence à différentes localisations), la présence de doublons mais aussi leur fiabilité (e.g., adresse d’entreprise inexistante)? et 2) Comment intégrer ces différentes entités, les sources de données qui les contiennent, afin de disposer d’un référentiel unique ? La résolution d’entités nous fournit un cadre formel pour répondre à ces questions, notamment en essayant d’identifier différentes descriptions qui réfèrent à une même entité du monde réel. Les solutions récentes pour la résolution d’entités commerciales, particulièrement pour l’appariement des adresses, reposent sur des modèles (statiques) neuronaux de plongement de mots. Néanmoins, elles ne considèrent pas la polysémie ni la validité d’adresses. De plus, les plongements de mots générés par ces modèles sont principalement linguistiques et ne prennent en compte le contexte de géolocalisation. D’où la nécessite d’incorporer une connaissance supplémentaire permettant d’identifier les adresses ayant la même localisation mais décrites différemment. C’est dans ce cadre formel que nous avons développé une méthodologie comportant deux phases : (1) la préparation des adresses dans l’objectif de les valider et, (2) l’appariement des entités afin de vérifier leur existence. Pour la préparation, nous proposons une approche de parsing des adresses et leur classification, qui repose sur RoBERTa, un modèle de langage pré-entraîné à base de transformeurs, permettant d’identifier les cas de polysémie et de vérifier la validité des adresses. Pour l’appariement des entités, nous proposons une approche de plongements contextuels de mots générés par RoBERTa, et augmentés par des connaissances géographiques pour mieux capturer les similarités sémantiques entre les entités. Enfin, pour évaluer nos approches, nous avons développé le framework GeoRoBERTa-ER pour la résolution d’entités et nous avons mené des expérimentations sur des jeux de données réels montrant l’efficacité de nos approches par rapport à des approches existantes à base d’apprentissage automatique (profond) issues de la littérature.

Thesis resume

For many companies, the validation of business entities, defined by a structure including company name and address, is a crucial activity to facilitate and secure exchanges between partners, such as in the KYC (Know Your Customer) process or, simply, to get a package to its destination. This validation activity raises complex challenges that are mainly related to the quality of these entities and their reliability. In this thesis, we propose to address this issue by answering the following questions: 1) How to qualify and structure these entities by taking into account the problems related to the data quality (e.g. typos, abbreviations, incomplete data), the polysemy (i.e. a place name that may refer to different places in a country or worldwide), the presence of duplicates and the data reliability (e.g., an invalid company’s address) ? and 2) How to integrate these entities (from different data sources) to have a unique data repository, that acts as a “ground truth database”? Entity resolution provides us with a formal setting for answering these questions, in particular by attempting to identify different descriptions that refer to the same real-world entity. Recent solutions for business entity resolution, especially for address matching, rely on (static) neural word embedding models. However, these solutions do not consider polysemy or address validity. Moreover, the models used in these solutions produce address embeddings mainly from linguistic contexts and do not take into account the geolocation contexts. Hence, additional knowledge needs to be considered, to improve the matching of addresses that share the same location but have different representations. Within this formal setting, we have developed a two-phase methodology: (1) addresses preparation in order to validate them, and (2) entities matching in order to verify their existence. For the preparation, we propose an approach for address parsing and classification, which relies on RoBERTa, a pre-trained language model based on transformers, allowing to identify the polysemy cases and to check the validity of addresses. For the entity matching, we propose an approach based on contextual word embedding generated by RoBERTa, that leverages geographical knowledge to better capture semantic similarities between entities. Finally, to evaluate our approaches, we developed GeoRoBERTa-ER, a novel framework for entity resolution, and conducted experiments on real datasets showing the effectiveness of our approaches compared to existing Machine (Deep) Learning-based approaches from the literature.