Title:Semantic Drift in Multilingual Representations
Download PDF
Abstract: As representações multilingues têm sido avaliadas principalmente com base no seu desempenho em tarefas específicas. Neste artigo, nós olhamos além dos objetivos de engenharia e analisamos as relações entre as linguagens em representações computacionais. Introduzimos uma metodologia de comparação de idiomas baseada em sua organização de conceitos semânticos. Propomos a realização de uma análise de similaridade representacional de um conjunto selecionado de conceitos em representações multilíngües computacionais. Usando este método de análise, podemos reconstruir uma árvore filogenética que se assemelha muito aos supostos especialistas em bílinguística. Estes resultados indicam que as representações distributivas multilingues que são treinadas apenas em textos monolingues e bilingues preservam as relações entre línguas sem a necessidade de qualquer informação meteorológica. Além disso, propomos uma medida para identificar a deriva identifisemântica entre as famílias linguísticas. Realizamos experiências com modelos multilingues baseados em palavras e frases e fornecemos tanto resultados quantitativos como exemplos qualitativos. A análise da deriva semântica em representações multilingues pode servir dois propósitos: pode indicar características indesejáveis dos modelos computacionais e fornecer um quantitativo para o estudo de fenómenos linguísticos entre línguas. O código está disponível neste URL https.