Semantica distribuzionale

La semantica distribuzionale comprende una serie di teorie e metodi di linguistica computazionale per lo studio della distribuzione semantica delle parole nel linguaggio naturale. Questi modelli derivano da una prospettiva empiristica e assumono che una distribuzione statistica dei termini sia preponderante nel delinearne il comportamento semantico ^[1].

Principi di base

Questa teoria propone il paradigma per cui le parole sono distribuite in uno spazio nel quale sono, tra loro, ad una distanza proporzionale al loro grado di similarità. Quest'ultima segue l'ipotesi fondamentale della semantica distribuzionale (chiamata ipotesi distribuzionale) secondo la quale due parole sono tanto più simili semanticamente, quanto più tendono a comparire nello stesso contesto linguistico.
La frase emblematica di questa teoria è^[2]:

(EN)

«You shall know a word by the company it keeps»

(IT)

«Conoscerai una parola dalla compagnia che frequenta»

("A synopsis of linguistic theory 1930-1955." (1957:pag.11:cap.IV:riga 8))

Questa ipotesi condivide un principio di funzione simile al modello cognitivo proposto per spiegare il funzionamento del lessico mentale, per cui i concetti non sono memorizzati tutti come in un'enciclopedia, ma sono organizzati in base alle informazioni contestuali in cui la parola compare ^[3].

Gli spazi vettoriali

Per le realizzazioni concrete dell'ipotesi distribuzionale si procede costruendo degli spazi semantici distribuzionali utilizzando rappresentazioni geometriche per rappresentare la semantica del testo. Ogni punto nello spazio è caratterizzato da n dimensioni, cioè dalle coordinate rispetto agli n assi che formano il nostro spazio vettoriale. In questo modo ogni parola diventa un vettore, le cui dimensioni dipendono dai contesti linguistici in cui la parola può ricorrere e la distanza tra i punti è proporzionale alla distanza semantica tra le parole (in base all'ipotesi distribuzionale).
Formalmente lo spazio semantico viene definito tramite quattro variabili fondamentali ^[4] ^[5]:

T che rappresenta l'insieme delle parole target che vanno a formare lo spazio semantico;
B, cioè la base che definisce le dimensioni del nostro spazio e contiene i contesti linguistici sui quali viene valutata la similarità;
M è la matrice di co-occorrenza che rappresenta i vettori di T;
S è la metrica che misura la distanza dei punti nello spazio semantico;

Si può riassumere quindi che ogni parola target T corrisponde ad una riga della matrice M e ogni contesto B definisce le colonne della matrice stessa. Le celle contengono, nel caso più semplice, la frequenza di co-occorrenza della parola T in un contesto B.
Le differenze tra i modelli dipendono dal metodo con cui definiscono B, cioè da come definiscono il contesto. Comunemente viene definito in base ad una finestra W di parole che stanno attorno alla parola target T. In questo caso B (la dimensione dei vettori) è sottoinsieme delle parole tipo ottenuto escludendo le stopwords (che non hanno rilevanza dal punto di vista semantico) e includendo le parole contenuto più frequenti nel vocabolario del testo.
Se bisogna calcolare la distanza semantica tra due parole, è necessario calcolare la distanza tra i due vettori su tutte le dimensioni. Più sono le dimensioni simili tra i due vettori, più i significati delle parole che formano i vettori sono simili (sempre secondo l'ipotesi distribuzionale). La misura più comune della vicinanza spaziale è il coseno dell'angolo formato dagli stessi (se i vettori hanno dimensioni uguali, l'angolo è 0 e il coseno è massimo = 1; se i vettori sono indipendenti, l'angolo è 90° e il coseno è minimo = 0). Un altro metodo è calcolare la Distanza euclidea generalizzando ad uno spazio multidimensionale.

Semantica e cognizione

In seguito alla verifica dei risultati e della loro correttezza è emerso che l'ipotesi distribuzionale ha molti riscontri con l'interpretazione semantica che viene dato dalle persone, in particolare gli spazi semantici distribuzionali possono essere usati come modelli per vari compiti legati alla distanza semantica tra le parole (priming semantico oppure, errori di interferenza nel compito di riconoscimento delle parole, ecc..) più accuratamente di modelli lessicali basati su simboli con reti lessicali (come Wordnet) ^[6].
L'apporto teorico maggiore, comunque, questa teoria l'ha fornita nell'ambito cognitivo-linguistico, la quale ha sempre considerato la rappresentazione del significato come una proiezione nella mente di simboli concettuali chiamati ontologie (concetto applicato alle scienze informatiche con il nome di ontologie formali). Quest'ultime sono la rappresentazione di categorie concettuali tramite linguaggi formali (simboli specifici che rappresentano la semantica delle parole) ^[7] ^[8] , i quali formano entità completamente indipendenti dal contesto, separando totalmente la competenza semantica dall'uso contestuale della stessa parola (differenza tipica della teoria generativa). La difficoltà oggettiva di questo approccio è la gestione dei significati mutevoli che si realizzano quando questi sono immersi in un contesto specifico. La semantica distribuzionale rivoluziona questo mondo attribuendo al contesto le proprietà di costruttore del significato, come allude la citazione^[9]:

(EN)

«The complete meaning of a word is always contextual, and no study of meaning apart from context can be taken seriously.»

(IT)

«Il significato completo di una parola è sempre contestuale e nessuno studio del significato, a parte quello tramite il contesto, può essere preso seriamente.»

("The Technique of Semantics." (1935:pag.37))

Viene quindi dato un nuovo modello di rappresentazione semantica, sensibile al contesto (context-sensitive) e per natura dinamico.

Applicazioni

L'arrivo di grandi corpora ha permesso a questa teoria di emergere nello studio computazionale della semantica e trovare così applicazioni concrete in modelli computazionali per la costruzione di spazi vettoriali di rappresentazione delle parole.

I modelli più noti per questi studi sono:

Latent semantic analysis (LSA)^[10]
Hyperspace analogue to language^[11]
Random indexing^[12]

Tra gli algoritmi più recenti per la creazione di word embedding troviamo:

word2vec basato sul modello di rete neurale Skip-gram (una tecnica dove gli n-grammi memorizzano ancora un modello del linguaggio, ma permettono di saltare token)^[13] che utilizza un metodo predittivo^[14].
glove che usa metodi count-based (modello basato sul conteggio, letteralmente)^[15].

Molti ricercatori hanno discusso su quale fosse il metodo migliore da utilizzare ed alcuni sono arrivati alla conclusione che un modello che utilizza metodi predittivi sia migliore ^[16] , altri invece sostengono che le due classi di metodi non siano drasticamente differenti a un livello fondamentale nel quale entrambi sondano le statistiche di co-occorrenze di un corpus, ma l'efficienza con cui i metodi count-based catturano le statistiche globali può essere vantaggioso^[15].
I modelli distribuzionali hanno trovato moltissime applicazioni nella linguistica computazionale, tra cui la Text simplification (semplificazione del testo) ^[17] , che ha lo scopo di rendere il testo più facile da comprendere per i lettori umani o automatici, l'identificazione delle metafore ^[18] , priming semantico ^[19] , il ragionamento analitico^[20].

Note

^ Lenci, Alessandro. "Distributional semantics in linguistic and cognitive research." Italian journal of linguistics 20.1 (2008): 1-31.
^ Church, Kenneth. "A pendulum swung too far." Linguistic Issues in Language Technology 6.5 (2011): 1-27. (PDF), su journals.linguisticsociety.org. URL consultato il 14 marzo 2017 (archiviato dall'url originale il 18 gennaio 2018).
^ CHARLES, W. (2000). Contextual correlates of meaning. Applied Psycholinguistics, 21(4), 505-524, p. 507
^ Lowe, Will. "Towards a theory of semantic space." Proceedings of the twenty-third annual conference of the cognitive science society. Philadelphia 2001, pp. 576-581.
^ Padó, Sebastian, and Mirella Lapata. "Dependency-based construction of semantic space models." Computational Linguistics 33.2 (2007): 161-199.
^ Vigliocco, Gabriella, et al. "Representing the meanings of object and action words: The featural and unitary semantic space hypothesis." Cognitive psychology 48.4 (2004): 422-488., DOI:10.1016/j.cogpsych.2003.09.001.
^ Guarino, Nicola. "Formal ontology and information systems." Proceedings of FOIS. Vol. 98. No. 1998. 1998.
^ Viinikkala, Mika. "Ontology in Information Systems." (2005).
^ George A. Miller e Walter G. Charles, Contextual correlates of semantic similarity, in Language and Cognitive Processes, vol. 6, n. 1, 1º gennaio 1991, pp. 1–28, DOI:10.1080/01690969108406936. URL consultato il 14 marzo 2017.
^ Landauer, Thomas K., and Susan T. Dumais. "A solution to Plato's problem: The latent semantic analysis theory of acquisition, induction, and representation of knowledge." Psychological review 104.2 (1997): 211.
^ Lund, Kevin, and Curt Burgess. "Producing high-dimensional semantic spaces from lexical co-occurrence." Behavior Research Methods, Instruments, & Computers 28.2 (1996): 203-208.
^ Karlgren, Jussi, and Magnus Sahlgren. "26 From Words to Understanding." (2001). Archiviato l'8 agosto 2017 in Internet Archive.
^ Guthrie, David, et al. "A closer look at skip-gram modelling." Proceedings of the 5th international Conference on Language Resources and Evaluation (LREC-2006). 2006. (PDF), su homepages.inf.ed.ac.uk. URL consultato il 10 marzo 2017 (archiviato dall'url originale il 17 maggio 2017).
^ MIKOLOV, Tomas, et al. Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781, 2013.
^ ^a ^b Pennington, Jeffrey, Richard Socher, and Christopher D. Manning. "Glove: Global Vectors for Word Representation." EMNLP. Vol. 14. 2014.
^ Baroni, Marco, Georgiana Dinu, and Germán Kruszewski. "Don't count, predict! A systematic comparison of context-counting vs. context-predicting semantic vectors." ACL (1). 2014.
^ Siddharthan, Advaith. "Syntactic simplification and text cohesion." Research on Language and Computation 4.1 (2006): 77-109.
^ Gershman, Yulia Tsvetkov Elena Mukomel Anatole. "Cross-Lingual Metaphor Detection Using Common Semantic Features." Meta4NLP 2013 (2013): 45.
^ Jones, Michael N., Walter Kintsch, and Douglas JK Mewhort, High-dimensional semantic space accounts of priming." Journal of memory and language 55.4 (2006): 534-552., DOI:10.1016/j.jml.2006.07.003.
^ Michael Ramscar e Daniel Yarlett, Semantic grounding in models of analogy: an environmental approach, in Cognitive Science, vol. 27, n. 1, 1º gennaio 2003, pp. 41–71, DOI:10.1016/S0364-0213(02)00113-1. URL consultato il 10 marzo 2017.