Title:Semantic Drift in Multilingual Representations

Authors:Lisa Beinborn, Rochelle Choenni

Download PDF

Tiivistelmä: Monikielisiä representaatioita on enimmäkseen arvioitu sen perusteella, miten ne suoriutuvat tietyistä tehtävistä. Tässä artikkelissa katsomme teknisiä tavoitteita pidemmälle ja analysoimme kielten välisiä suhteita laskennallisissa representaatioissa. Esittelemme menetelmän kielten vertailemiseksi niiden semanttisten käsitteiden organisoinnin perusteella. Ehdotamme, että suoritamme mukautetun version monikielisissä laskennallisissa esityksissä olevan valitun käsitejoukon esitystapojen samankaltaisuusanalyysistä. Tämän analyysimenetelmän avulla voimme rekonstruoida fylogeneettisen puun, joka muistuttaa läheisesti kieliasiantuntijoiden oletuksia. Nämä tulokset osoittavat, että monikieliset distributiiviset representaatiot, jotka on koulutettu vain yksikielisillä teksteillä ja kaksikielisillä sanakirjoilla, säilyttävät kielten väliset suhteet ilman etymologista tietoa. Lisäksi ehdotamme toimenpidettä, jolla voidaan tunnistaa kieliperheiden välinen semanttinen ajautuminen. Teemme kokeita sana- ja lausepohjaisilla monikielisillä malleilla ja annamme sekä kvantitatiivisia tuloksia että kvalitatiivisia esimerkkejä. Semanttisen ajelehtimisen analyysit monikielisissä esityksissä voivat palvella kahta tarkoitusta: ne voivat osoittaa laskennallisten mallien ei-toivottuja ominaisuuksia ja ne tarjoavat kvantitatiivisen keinon tutkia kielellisiä ilmiöitä eri kielten välillä. Koodi on saatavilla tässä https-osoitteessa.

Articles

Vastaa

Sähköpostiosoitettasi ei julkaista.