Title:Semantic Drift in Multilingual Representations

Authors:Lisa Beinborn, Rochelle Choenni

Download PDF

Abstract: Multilingual representations have mostly been evaluated based on theirperformance on specific tasks. V tomto článku se podíváme nad rámec inženýrskýchcílů a analyzujeme vztahy mezi jazyky ve výpočetních reprezentacích. Zavádíme metodiku pro porovnávání jazyků na základějejich uspořádání sémantických pojmů. Navrhujeme provést upravenouverzi analýzy reprezentační podobnosti vybraného souboru pojmůve výpočetních vícejazyčných reprezentacích. Pomocí této metody analýzy můžeme rekonstruovat fylogenetický strom, který se velmi podobá stromům předpokládaným jazykovými experty. Tyto výsledky naznačují, že vícejazyčné distribučníreprezentace, které jsou trénovány pouze na jednojazyčných textech a dvojjazyčných slovnících, zachovávají vztahy mezi jazyky bez potřeby jakýchkolietymologických informací. Kromě toho navrhujeme opatření k identifikacisémantického driftu mezi jazykovými rodinami. Provádíme experimenty na vícejazyčných modelech založených na slovech a větách a uvádíme jak kvantitativní výsledky, tak kvalitativní příklady. Analýzy sémantického driftu ve vícejazyčných reprezentacích mohou sloužit dvěma účelům: mohou poukázat na nežádoucícharakteristiky výpočetních modelů a poskytují kvantitativníprostředek ke studiu jazykových jevů napříč jazyky. Kód je k dispozici na této https adrese.

Articles

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.