Title:Semantic Drift in Multilingual Representations

Authors:Lisa Beinborn, Rochelle Choenni

Download PDF

Abstract: Multilingual representations have mostly been evaluated based on theirperformance on specific tasks. En este artículo, miramos más allá de los objetivos de ingeniería y analizamos las relaciones entre los idiomas en las representaciones computacionales. Introducimos una metodología para comparar las lenguas en función de su organización de los conceptos semánticos. Proponemos llevar a cabo una versión adaptada del análisis de similitudes de representación de un conjunto seleccionado de conceptos en representaciones computacionales multilingües. Utilizando este método de análisis, podemos reconstruir un árbol filogenético que se asemeja mucho a los que suponen los expertos lingüísticos. Estos resultados indican que las representaciones distributivas multilingües que sólo se entrenan con textos monolingües y diccionarios bilingües preservan las relaciones entre las lenguas sin necesidad de ninguna información etimológica. Además, proponemos una medida para identificar la deriva semántica entre familias lingüísticas. Realizamos experimentos con modelos multilingües basados en palabras y en frases y ofrecemos resultados cuantitativos y ejemplos cualitativos. Los análisis de la deriva semántica en representaciones multilingües pueden servir para dos propósitos: pueden indicar características no deseadas de los modelos computacionales y proporcionan un medio cuantitativo para estudiar los fenómenos lingüísticos entre lenguas. El código está disponible en esta URL https.

Articles

Deja una respuesta

Tu dirección de correo electrónico no será publicada.