Title:Semantic Drift in Multilingual Representations
Download PDF
Abstract: Multilingual representations have mostly been evaluated based on theirperformance on specific tasks. În acest articol, privim dincolo de obiectivele inginerești și analizăm relațiile dintre limbi în reprezentările computaționale. Introducem o metodologie pentru compararea limbilor pe bazaorganizării conceptelor semantice. Propunem să realizăm o versiune adaptată a analizei similarității de reprezentare a unui set selectat de concepte în reprezentări computaționale multilingve. Folosind această metodă de analiză, putem reconstrui un arbore filogenetic care se aseamănă foarte mult cu cele presupuse de experții lingviști. Aceste rezultate indică faptul că reprezentările distribuționale multilingve care sunt antrenate doar pe texte monolingve și pe dicționare bilingve păstrează relațiile dintre limbi fără a fi nevoie de informații etimologice. În plus, propunem o măsură pentru a identifica derapajele semantice între familiile de limbi. Efectuăm experimente pe modele multilingve bazate pe cuvinte și propoziții și oferim atât rezultate cantitative, cât și exemple calitative. Analizele de derivă semantică în reprezentările multilingve pot avea două scopuri: pot indica caracteristici nedorite ale modelelor de calcul și oferă un mijloc cantitativ de a studia fenomenele lingvistice între limbi. Codul este disponibil la acest URL https.