Title:Semantic Drift in Multilingual Representations

Authors:Lisa Beinborn, Rochelle Choenni

Download PDF

Abstract: Multilingual representations have mostly been evaluated based on theirperformance on specific tasks. Ebben a cikkben túllátunk a mérnöki célokon, és elemezzük a nyelvek közötti kapcsolatokat a számítógépes reprezentációkban. Bevezetünk egy módszertant a nyelvek összehasonlítására a szemantikai fogalmak szervezése alapján. Javasoljuk a reprezentációs hasonlóságelemzés adaptált változatának elvégzését egy kiválasztott fogalomkészletre vonatkozóan a számítógépes többnyelvű reprezentációkban. Ezzel az elemzési módszerrel rekonstruálhatunk egy olyan filogenetikai fát, amely nagyban hasonlít a nyelvi szakértők által feltételezettekhez. Ezek az eredmények azt mutatják, hogy a csak egynyelvű szövegeken és kétnyelvű szótárakon képzett többnyelvű disztribúciós reprezentációk megőrzik a nyelvek közötti kapcsolatokat anélkül, hogy szükség lenne bármilyen etimológiai információra. Ezen túlmenően javasolunk egy mérőszámot a nyelvcsaládok közötti szemantikai sodródás azonosítására. Kísérleteket végzünk szóalapú és mondatalapú többnyelvű modellekkel, és mind mennyiségi eredményeket, mind minőségi példákat adunk. A többnyelvű reprezentációk szemantikai sodródásának elemzései két célt szolgálhatnak: jelezhetik a számítási modellek nemkívánatos jellemzőit, és kvantitatív eszközt biztosítanak a nyelvi jelenségek nyelvek közötti vizsgálatához. A kód elérhető ezen a https URL címen.

Articles

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.