Title:Semantic Drift in Multilingual Representations
Download PDF
Abstract: Le rappresentazioni multilingue sono state per lo più valutate sulla base delle loro prestazioni in compiti specifici. In questo articolo, guardiamo oltre gli obiettivi ingegneristici e analizziamo le relazioni tra le lingue nelle rappresentazioni computazionali. Introduciamo una metodologia per confrontare le lingue basate sulla loro organizzazione di concetti semantici. Proponiamo di condurre una versione adattata dell’analisi di similarità rappresentazionale di un insieme selezionato di concetti nelle rappresentazioni computazionali multilingue. Usando questo metodo di analisi, possiamo ricostruire un albero filogenetico che assomiglia molto a quelli assunti dagli esperti linguistici. Questi risultati indicano che le rappresentazioni distributive multilingue che sono addestrate solo su testi monolingue e dizionari bilingue conservano le relazioni tra le lingue senza la necessità di alcuna informazione etimologica. Inoltre, proponiamo una misura per identificare la deriva semantica tra le famiglie linguistiche. Eseguiamo esperimenti su modelli multilingue basati su parole e frasi e forniamo sia risultati quantitativi che esempi qualitativi. Le analisi della deriva semantica nelle rappresentazioni multilingue possono servire a due scopi: possono indicare caratteristiche indesiderate dei modelli computazionali e forniscono un mezzo quantitativo per studiare i fenomeni linguistici tra le lingue. Il codice è disponibile a questo URL https.