Title:Semantic Drift in Multilingual Representations
Download PDF
Abstract: Multilingual representations have mostly been evaluated based on theirperformance on specific tasks. I denne artikel ser vi ud over de tekniske mål og analyserer relationerne mellem sprog i computerrepræsentationer. Vi introducerer en metode til at sammenligne sprog baseret på deres organisering af semantiske begreber. Vi foreslår at foretage en tilpasset version af en analyse af repræsentationel lighed af et udvalgt sæt af begreber i computerbaserede flersprogede repræsentationer. Ved hjælp af denne analysemetode kan vi rekonstruere et fylogenetisk træ, der ligner de træer, der antages af sproglige eksperter. Disse resultater viser, at flersprogede distributionsrepræsentationer, der kun er trænet på ensprogede tekster og tosprogede ordbøger, bevarer relationerne mellem sprog uden behov for nogen som helst etymologiske oplysninger. Desuden foreslår vi et mål til identifikation af den semantiske afvigelse mellem sprogfamilier. Vi udfører eksperimenter med ordbaserede og sætningsbaserede flersprogede modeller og giver både kvantitative resultater og kvalitative eksempler. Analyser af semantisk drift i flersprogede repræsentationer kan tjene to formål: de kan indikere uønskede karakteristika ved de beregningsmæssige modeller, og de giver et kvantitativt middel til at studere sproglige fænomener på tværs af sprog. Koden er tilgængelig på denne https URL.