Titel:Semantic Drift in Multilingual Representations

Auteurs:Lisa Beinborn, Rochelle Choenni

Download PDF

Abstract: Meertalige representaties zijn meestal geëvalueerd op basis van hun prestatie in specifieke taken. In dit artikel kijken we verder dan technische doelstellingen en analyseren we de relaties tussen talen in computationele representaties. We introduceren een methodologie om talen te vergelijken op basis van hun organisatie van semantische concepten. We stellen voor om een aangepaste versie van de analyse van de representationele gelijkenis van een geselecteerde set van concepten in computationele meertalige representaties uit te voeren. Met behulp van deze analysemethode kunnen we een fylogenetische boom reconstrueren die sterk overeenkomt met die welke door taalexperts wordt verondersteld. Deze resultaten geven aan dat meertalige distributierepresentaties die alleen getraind zijn op eentalige tekst en tweetalige woordenboeken, relaties tussen talen behouden zonder dat daarvoor etymologische informatie nodig is. Bovendien stellen we een maat voor om semantische drift tussen taalfamilies te identificeren. We voeren experimenten uit met woord- en zinsgebaseerde meertalige modellen en geven zowel kwantitatieve resultaten als kwalitatieve voorbeelden. Analyses van semantische drift in meertalige representaties kunnen twee doelen dienen: ze kunnen ongewenste eigenschappen van de computationele modellen aangeven en ze bieden een kwantitatief middel om linguïstische verschijnselen tussen talen te bestuderen. De code is beschikbaar op deze https URL.

Articles

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.