Che cos’è la legge di Zipf?

Se prendiamo un testo abbastanza lungo, per esempio un romanzo, un insieme di articoli, un grande corpus linguistico, ecc., e contiamo quante volte compaiono le varie parole, scopriamo una regolarità molto precisa. La parola più frequente compare tantissime volte. La seconda un po’ meno. La terza ancora meno. E così via. Ma la cosa interessante è che questa diminuzione non è casuale. Se ordiniamo le parole per frequenza, cioè se assegniamo rango 1 alla parola più frequente, rango 2 alla seconda, rango 3 alla terza, e così via, allora la frequenza di una parola è all’incirca inversamente proporzionale al suo rango.

In altre parole: la parola di rango 2 compare circa la metà delle volte della parola di rango 1, quella di rango 3 circa un terzo della prima, quella di rango 4 circa un quarto, e così via.

Questa è la legge di Zipf.

Oggi la chiamiamo così perché George Kingsley Zipf l’ha studiata e resa celebre, soprattutto nel contesto del linguaggio naturale. Però prima di Zipf, questa regolarità era già stata osservata da un certo Jean-Baptiste Estoup, scrittore e stenografo francese, e poi in seguito era stata ritrovata anche da altri. Zipf però ne fece uno dei punti centrali della sua riflessione sul linguaggio, associandola anche a quella che chiamava una sorta di “legge del minimo sforzo”: l’idea che il linguaggio tenda a organizzarsi in modo da bilanciare lo sforzo di chi parla e lo sforzo di chi ascolta.

La legge di Zipf non è un caso isolato. Fa parte di una famiglia molto più ampia di regolarità statistiche, le cosiddette leggi di potenza. Le troviamo in moltissimi sistemi complessi: nelle dimensioni delle città, nella distribuzione della ricchezza, nelle reti, nella popolarità dei siti web, nelle citazioni scientifiche, e naturalmente nel linguaggio.

Ora, nel caso del linguaggio, questa cosa è particolarmente interessante, perché ci dice qualcosa di profondo. Quando scriviamo o parliamo, abbiamo l’impressione di essere liberi di scegliere le parole. E in un certo senso lo siamo. Però questa libertà non è completa. Se vogliamo produrre un testo comprensibile, coerente, dotato di significato, non possiamo usare le parole in modo completamente arbitrario. Perché siamo vincolati dalle relazioni di significato tra le parole.

Se inizio a parlare di fisica quantistica, certe parole diventano improvvisamente molto più probabili: “stato”, “misura”, “sistema”, “energia”, “osservabile”, “probabilità”. Se invece sto parlando di cucina, il campo delle parole probabili cambia completamente. Non solo, ogni parola che introduco in un testo modifica il contesto, e il contesto modifica a sua volta le probabilità delle parole successive. È come se il testo, man mano che cresce, costruisse un paesaggio semantico. Alcune regioni di questo paesaggio diventano più attive, più attrattive, e tendono a richiamare altre parole collegate a quei significati.

Ed qui che entra in gioco il cosiddetto processo di Yule-Simon.

Si tratta un modello molto semplice, molto più semplice di come si genera il linguaggio naturale, però cattura un’idea fondamentale: ciò che è già stato usato tende ad essere usato nuovamente, proporzionatamente a quanto è stato usato fino a quel momento. Cioè, più una parola è presente in un testo, e più diventa probabile che venga riutilizzata ulteriormente, quando la scrittura del testo continua.

A volte si parla di “effetto San Matteo”, perché nel Vangelo di Matteo c’è un versetto che recita: “a chiunque ha sarà dato e sarà nell’abbondanza; ma a chi non ha sarà tolto anche quello che ha”. Insomma, chi è ricco si arricchisce sempre di più e chi è povero si impoverisce sempre di piu. Il capitalismo, per come lo conosciamo, funziona purtroppo proprio in questo modo, come ha dimostrato l’economista francese Thomas Piketty, famoso per i suoi studi sulle disuguaglianze economiche.

Ma per tornare a Herbert Alexander Simon, anche lui un economista, nel 1955 utilizzò questo tipo di modello per spiegare le distribuzioni a legge di potenza che appaiono nei testi di linguaggio naturale, ricollegandosi a dei precedenti lavori dello statistico britannico Udny Yule.

Naturalmente, nel linguaggio umano non scegliamo una parola solo perché è già comparsa prima. Ma accade qualcosa di simile a livello semantico: il contesto già costruito rende certe parole più naturali, più disponibili, più coerenti con ciò che stiamo dicendo. In questo senso, il processo di Yule-Simon può essere visto come una caricatura matematica, molto semplificata ma molto azzeccata, di un fenomeno più articolato e complesso: l’aggiornamento contestuale di un testo. Il testo cresce, il contesto si aggiorna, e le parole successive non vengono scelte nel vuoto, ma dentro un campo di significati già attivo.

Esiste poi un affascinante collegamento tra la legge di Zipf e la statistica quantistica di Bose-Einstein. Questo collegamento fu messo in evidenza per la prima volta nel 1974 dallo statistico Bruce Marvin Hill (1974). Tuttavia, la semplice individuazione formale di tale corrispondenza non equivaleva a una “spiegazione” della legge di Zipf, semmai spostava il mistero. È solo con la riscoperta indipendente di tale corrispndenza da parte di Diederik Aerts e Lester Beltran, nel 2020, nel quadro della cognizione quantistica e dell’interpretazione concettualistica, che emerge il possibile significato profondo della legge di Zipf, come traccia di una struttura quantistica soggiacente, emersa attraverso un processo – quello della scrittura – regolato dal livello del significato.

In altre parole, l’idea è che si possa guardare a un testo come a un sistema in cui le parole sono equivalenti a delle entità quantstiche che occupano diversi stati, un po’ come le particelle in fisica occupano diversi livelli di energia. Il rango della parola gioca allora un ruolo simile al livello energetico, e l’entanglement quantstico l’equivalente di una connessione di significato.

P.S.: Questo articolo è tratto da un mio video pubblicato su YouTube: https://youtu.be/CAKX4rnOSpQ