Title:Semantic Drift in Multilingual Representations

Authors:Lisa Beinborn, Rochelle Choenni

Download PDF

Abstract: Mehrsprachige Repräsentationen wurden meist anhand ihrer Leistung bei bestimmten Aufgaben bewertet. In diesem Artikel gehen wir über die technischen Ziele hinaus und analysieren die Beziehungen zwischen Sprachen in computergestützten Repräsentationen. Wir stellen eine Methode zum Vergleich von Sprachen auf der Grundlage ihrer Organisation von semantischen Konzepten vor. Wir schlagen vor, eine angepasste Version der repräsentativen Ähnlichkeitsanalyse einer ausgewählten Menge von Konzepten in computergestützten mehrsprachigen Repräsentationen durchzuführen. Mit dieser Analysemethode können wir einen phylogenetischen Baum rekonstruieren, der den Annahmen von Sprachexperten sehr ähnlich ist. Diese Ergebnisse deuten darauf hin, dass mehrsprachige Verteilungsrepräsentationen, die nur auf einsprachigen Texten und zweisprachigen Wörterbüchern trainiert werden, die Beziehungen zwischen den Sprachen bewahren, ohne dass dafür irgendwelche etymologischen Informationen benötigt werden. Darüber hinaus schlagen wir ein Maß zur Identifizierung der semantischen Drift zwischen Sprachfamilien vor. Wir führen Experimente mit wortbasierten und satzbasierten mehrsprachigen Modellen durch und liefern sowohl quantitative Ergebnisse als auch qualitative Beispiele. Analysen des semantischen Drifts in mehrsprachigen Darstellungen können zwei Zwecken dienen: Sie können unerwünschte Eigenschaften der Rechenmodelle aufzeigen und sie bieten ein quantitatives Mittel zur Untersuchung linguistischer Phänomene in verschiedenen Sprachen. Der Code ist unter dieser https-URL verfügbar.

Articles

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.