Titel:Semantic Drift in Multilingual Representations

Författare:Lisa Beinborn, Rochelle Choenni

Ladda ner PDF

Sammanfattning: Flerspråkiga representationer har oftast utvärderats baserat på deras prestanda vid specifika uppgifter. I den här artikeln ser vi bortom tekniska mål och analyserar relationerna mellan språk i datoriserade framställningar. Vi introducerar en metod för att jämföra språk utifrån deras organisation av semantiska begrepp. Vi föreslår att man genomför en anpassad version av analysen av representationslikhet av en utvald uppsättning begrepp i datoriserade flerspråkiga representationer. Med hjälp av denna analysmetod kan vi rekonstruera ett fylogenetiskt träd som i hög grad liknar dem som antas av språkexperter. Dessa resultat visar att flerspråkiga distributionsrepresentationer som endast tränas på enspråkig text och tvåspråkiga ordböcker bevarar relationer mellan språk utan att det behövs någon som helst etymologisk information. Dessutom föreslår vi ett mått för att identifiera en semantisk avvikelse mellan språkfamiljer. Vi utför experiment med ordbaserade och meningsbaserade flerspråkiga modeller och ger både kvantitativa resultat och kvalitativa exempel. Analyser av semantisk drift i flerspråkiga framställningar kan tjäna två syften: de kan visa på oönskade egenskaper hos beräkningsmodellerna och de ger ett kvantitativt sätt att studera språkliga fenomen över språkgränserna. Koden finns tillgänglig på denna https URL.

Articles

Lämna ett svar

Din e-postadress kommer inte publiceras.