Title:Semantic Drift in Multilingual Representations
Download PDF
Abstract: Multilingual representations have mostly been evaluated based on theirperformance on specific tasks. W tym artykule wychodzimy poza cele inżynierskie i analizujemy relacje między językami w reprezentacjach obliczeniowych. Przedstawiamy metodologię porównywania języków w oparciu o ich organizację pojęć semantycznych. Proponujemy przeprowadzenie zaadaptowanej wersji analizy podobieństwa reprezentacyjnego wybranego zbioru pojęć w obliczeniowych reprezentacjach wielojęzycznych. Stosując tę metodę analizy, możemy zrekonstruować drzewo filogenetyczne, które jest bardzo zbliżone do zakładanego przez językoznawców. Wyniki te wskazują, że wielojęzyczne reprezentacje dystrybucyjne, które są trenowane jedynie na tekstach jednojęzycznych i słownikach dwujęzycznych, zachowują relacje między językami bez konieczności posiadania informacji etymologicznych. Ponadto, proponujemy miarę służącą do identyfikacji dryfu semantycznego pomiędzy rodzinami językowymi. Przeprowadzamy eksperymenty na wielojęzycznych modelach opartych na słowach i zdaniach oraz dostarczamy zarówno wyniki ilościowe, jak i przykłady jakościowe. Analizy dryfu semantycznego w reprezentacjach wielojęzycznych mogą służyć dwóm celom: mogą wskazywać na niepożądane cechy modeli obliczeniowych oraz dostarczać ilościowych środków do badania zjawisk lingwistycznych w różnych językach. Kod jest dostępny pod tym adresem URL https.