Titre:Dérive sémantique dans les représentations multilingues

Auteurs:Lisa Beinborn, Rochelle Choenni

Télécharger le PDF

Résumé : Les représentations multilingues ont surtout été évaluées en fonction de leurs performances sur des tâches spécifiques. Dans cet article, nous regardons au-delà des objectifs d’ingénierie et analysons les relations entre les langues dans les représentations computationnelles. Nous introduisons une méthodologie pour comparer les langues sur la base de leur organisation des concepts sémantiques. Nous proposons de mener une version adaptée de l’analyse de similarité représentationnelle d’un ensemble sélectionné de concepts dans les représentations informatiques multilingues. En utilisant cette méthode d’analyse, nous pouvons reconstruire un arbre phylogénétique qui ressemble de près à ceux supposés par les experts en linguistique. Ces résultats indiquent que les représentations distributionnelles multilingues, qui ne sont entraînées que sur des textes monolingues et des dictionnaires bilingues, préservent les relations entre les langues sans avoir besoin d’aucune information morphologique. De plus, nous proposons une mesure pour identifier la dérive sémantique entre les familles de langues. Nous réalisons des expériences sur des modèles multilingues basés sur des mots et des phrases et fournissons des résultats quantitatifs et des exemples qualitatifs. Les analyses de la dérive sémantique dans les représentations multilingues peuvent servir à deux fins : elles peuvent indiquer des caractéristiques indésirables des modèles de calcul et elles fournissent un moyen quantitatif d’étudier les phénomènes linguistiques entre les langues. Le code est disponible à cette URL https.

Articles

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.