Soutenance de thèse de Yassine GUERMAZI
Ecole Doctorale
Mathématiques et Informatique de Marseille
Spécialité
Informatique
établissement
Aix-Marseille Université
Mots Clés
Résolution dentités,Préparation de données,Transformeurs,Appariement dentités,Plongement de mots,Apprentissage automatique,
Keywords
Entity Resolution,Data Preparation,Transformers,Entity Matching,Word Embedding,Machine Learning,
Titre de thèse
Résolution dentités à base de transformeurs : application à la validation des noms et adresses dentreprises
Transformers-based Entity Resolution: application to the validation of company names and addresses
Date
Lundi 3 Juillet 2023
à 10:30
Adresse
LIS UMR 7020 CNRS / AMU / UTLN
Aix Marseille Université Campus de Saint Jérôme Bat. Polytech
52 Av. Escadrille Normandie Niemen
13397 Marseille Cedex 20
Amphithéâtre Gérard Jaumes (Bâtiment Polytech)
Jury
Directeur de these | M. Omar BOUCELMA | Aix Marseille Université |
Rapporteur | Mme Vargas-Solar GENOVEVA | UMR 5205 CNRS LIRIS - Université Claude Bernard Lyon 1 |
Rapporteur | M. Ladjel BELLATRECHE | ISAE - ENSMA, Université de Poitiers |
Examinateur | Mme Ana-Maria OLTEANU-RAIMOND | LASTIG UMR (IGN, Univ. Paris Est Marne la Vallée et EIVP) |
Président | M. Alexis NASR | Aix Marseille Université |
CoDirecteur de these | Mme Sana SELLAMI | Aix Marseille Université |
Résumé de la thèse
Pour de nombreuses entreprises, la validation des entités commerciales, définies
par une structure comprenant la raison sociale et ladresse, est une activité cruciale
pour faciliter et sécuriser les échanges entre partenaires, comme par exemple dans
le processus KYC (Know Your Customer) ou bien, tout simplement, faire parvenir un
colis à destination. Cette activité de validation soulève des défis complexes qui sont
liés principalement à la qualité de ces entités et leur fiabilité.
Dans cette thèse, nous nous proposons daborder cette problématique en répondant
aux questions suivantes : 1) Comment qualifier et structurer ces entités en prenant
en compte les problèmes liés à la qualité (e.g. typos, abréviations), et lincomplétude
des données, la polysémie (i.e. des mêmes noms de lieux pouvant faire référence
à différentes localisations), la présence de doublons mais aussi leur fiabilité (e.g.,
adresse dentreprise inexistante)? et 2) Comment intégrer ces différentes entités, les
sources de données qui les contiennent, afin de disposer dun référentiel unique ?
La résolution dentités nous fournit un cadre formel pour répondre à ces questions,
notamment en essayant didentifier différentes descriptions qui réfèrent à une même
entité du monde réel. Les solutions récentes pour la résolution dentités commerciales, particulièrement pour lappariement des adresses, reposent sur des modèles
(statiques) neuronaux de plongement de mots. Néanmoins, elles ne considèrent pas
la polysémie ni la validité dadresses. De plus, les plongements de mots générés par
ces modèles sont principalement linguistiques et ne prennent en compte le contexte
de géolocalisation. Doù la nécessite dincorporer une connaissance supplémentaire
permettant didentifier les adresses ayant la même localisation mais décrites différemment.
Cest dans ce cadre formel que nous avons développé une méthodologie comportant
deux phases : (1) la préparation des adresses dans lobjectif de les valider et, (2)
lappariement des entités afin de vérifier leur existence.
Pour la préparation, nous proposons une approche de parsing des adresses et leur
classification, qui repose sur RoBERTa, un modèle de langage pré-entraîné à base de
transformeurs, permettant didentifier les cas de polysémie et de vérifier la validité
des adresses.
Pour lappariement des entités, nous proposons une approche de plongements
contextuels de mots générés par RoBERTa, et augmentés par des connaissances géographiques pour mieux capturer les similarités sémantiques entre les entités.
Enfin, pour évaluer nos approches, nous avons développé le framework GeoRoBERTa-ER pour la résolution dentités et nous avons mené des expérimentations sur des jeux
de données réels montrant lefficacité de nos approches par rapport à des approches
existantes à base dapprentissage automatique (profond) issues de la littérature.
Thesis resume
For many companies, the validation of business entities, defined by a structure
including company name and address, is a crucial activity to facilitate and secure
exchanges between partners, such as in the KYC (Know Your Customer) process or,
simply, to get a package to its destination. This validation activity raises complex
challenges that are mainly related to the quality of these entities and their reliability.
In this thesis, we propose to address this issue by answering the following questions:
1) How to qualify and structure these entities by taking into account the problems
related to the data quality (e.g. typos, abbreviations, incomplete data), the polysemy
(i.e. a place name that may refer to different places in a country or worldwide), the
presence of duplicates and the data reliability (e.g., an invalid companys address) ?
and 2) How to integrate these entities (from different data sources) to have a unique
data repository, that acts as a ground truth database?
Entity resolution provides us with a formal setting for answering these questions,
in particular by attempting to identify different descriptions that refer to the same
real-world entity. Recent solutions for business entity resolution, especially for address
matching, rely on (static) neural word embedding models. However, these solutions
do not consider polysemy or address validity. Moreover, the models used in these
solutions produce address embeddings mainly from linguistic contexts and do not
take into account the geolocation contexts. Hence, additional knowledge needs to be
considered, to improve the matching of addresses that share the same location but
have different representations.
Within this formal setting, we have developed a two-phase methodology: (1) addresses preparation in order to validate them, and (2) entities matching in order to
verify their existence.
For the preparation, we propose an approach for address parsing and classification, which relies on RoBERTa, a pre-trained language model based on transformers,
allowing to identify the polysemy cases and to check the validity of addresses.
For the entity matching, we propose an approach based on contextual word embedding generated by RoBERTa, that leverages geographical knowledge to better capture
semantic similarities between entities.
Finally, to evaluate our approaches, we developed GeoRoBERTa-ER, a novel framework for entity resolution, and conducted experiments on real datasets showing the
effectiveness of our approaches compared to existing Machine (Deep) Learning-based
approaches from the literature.