Clear Sky Science · it

La grammatica come biometria comportamentale: uso di modelli grammaticali cognitivamente motivati per la verifica dell’autore

· Torna all'indice

Perché il tuo stile di scrittura è come un’impronta digitale

Ogni volta che scrivi—sia che si tratti di un’email, di una recensione o di un post sui social—riveli più di te stesso di quanto potresti pensare. Oltre agli argomenti che scegli, i piccoli mattoni delle tue frasi, come le piccole parole e la punteggiatura, formano schemi sorprendentemente personali. Questo articolo esplora un nuovo modo di usare quegli schemi per stabilire se due testi siano stati scritti dalla stessa persona, con possibili implicazioni per la legge, la sicurezza e la nostra comprensione di come il linguaggio vive nella mente.

Figure 1
Figura 1.

Come gli investigatori stabiliscono chi ha scritto cosa

Nella forense del testo digitale, gli esperti si trovano spesso di fronte a domande come: la stessa persona ha scritto questa email minacciosa e quel messaggio precedente? Due account online sono controllati dallo stesso individuo? Gli approcci tradizionali a questi problemi di paternità si dividono in tre filoni. Alcuni confrontano solo i testi noti dell’autore con il testo contestato. Altri addestrano un classificatore su molti esempi di coppie corrispondenti e non corrispondenti. Un terzo gruppo, su cui si concentra questo articolo, introduce una “popolazione di riferimento” esterna di testi per capire quanto sia insolito uno stile di scrittura rispetto a molti altri autori. Nell’ultimo decennio tecniche potenti ma opache—soprattutto quelle basate su snippet di caratteri e reti neurali profonde—hanno dominato task condivisi e benchmark. Tuttavia, possono essere lente, difficili da interpretare e talvolta mosse più dall’argomento trattato che dalle vere abitudini stilistiche dello scrittore.

Dalle frasi alle abitudini nella mente

Gli autori radicano il loro nuovo metodo nella Linguistica Cognitiva, un campo che considera la grammatica non come un insieme di regole rigide, ma come una rete di schemi appresi. Secondo questa prospettiva, i nostri cervelli “raggruppano” sequenze ripetute di frequente—come “of the” o “I don’t know”—in unità che diventano automatiche, un po’ come passi di danza ben esercitati. Queste unità si collocano su un continuum che va da espressioni fisse a modelli flessibili e strutture più astratte. Poiché le nostre esperienze e la nostra storia di lettura differiscono, le combinazioni particolari che si radicano profondamente nella mente sono anche diverse. Questo “principio di individualità linguistica” suggerisce che non esistono due persone con la stessa grammatica interna esatta. L’articolo sostiene che questa grammatica individualizzata può funzionare come una sorta di biometria comportamentale, paragonabile nello spirito alla calligrafia o al modo di camminare.

Trasformare la grammatica nascosta in un segnale misurabile

Sulla base di questa teoria, gli autori introducono LambdaG, un metodo che modella la grammatica di un autore ignorando deliberatamente argomenti e parole di contenuto. Innanzitutto, i testi vengono filtrati per mantenere solo parole funzionali, punteggiatura e poche categorie astratte, eliminando nomi e contenuti specifici. Questi testi filtrati vengono suddivisi in frasi e inseriti in un modello statistico “n-gram” che apprende quanto è probabile ogni piccola sequenza di token grammaticali per quell’autore. Un secondo insieme di modelli, addestrato su molti altri scrittori, svolge il ruolo della popolazione di confronto. Per ogni token in un testo contestato, LambdaG chiede: quanto è più naturale questo token in questo contesto per l’autore candidato rispetto agli scrittori di riferimento? Queste comparazioni vengono combinate in un unico punteggio che riflette sia la somiglianza con il candidato sia la rarità nella popolazione più ampia. Una semplice regressione logistica calibra quindi questo punteggio in modo che possa essere interpretato come una forza di prova graduata in contesti forensi.

Figure 2
Figura 2.

Quanto è efficace il nuovo metodo

Gli autori testano LambdaG su dodici dataset che imitano situazioni reali: email, log di chat, recensioni, articoli di notizie e altro, spesso con testi relativamente brevi. Lo confrontano con sette solide baseline, incluso l’influente Impostors Method, un approccio basato sulla compressione, un ensemble agnostico rispetto al tema e diversi sistemi neurali profondi. Su misure come accuratezza e area sotto la curva ROC, LambdaG si piazza primo nella maggior parte dei dataset e secondo in diversi altri, superando spesso i modelli neurali anche quando a questi viene permesso di sfruttare il contenuto completo. È inoltre meno sensibile rispetto ai metodi precedenti ai cambiamenti nella popolazione di riferimento: le prestazioni calano quando i testi di riferimento provengono da un genere molto diverso, ma non fino al punto di diventare inutili. Poiché il punteggio di LambdaG può essere scomposto frase per frase e persino token per token, gli analisti possono produrre mappe di calore che evidenziano visivamente quali schemi in un testo sono stati più influenti nella decisione.

Cosa significa per identità e privacy

Lo studio conclude che la grammatica di un individuo—il modo in cui abitualmente intreccia piccole parole, punteggiatura e schemi ricorrenti—agisce molto come una biometria comportamentale. Anche in appena uno o due mila parole, LambdaG può spesso scoprire sequenze idiosincratiche che distinguono fortemente una persona dalle altre, e gli autori sostengono che molte di queste unità non sono controllate consapevolmente dagli stessi scrittori. Questo ha chiari benefici per il lavoro forense: offre un metodo relativamente semplice, empiricamente solido e ancorato a una teoria linguistica ben sviluppata, rendendo il suo ragionamento più facile da spiegare in tribunale. Allo stesso tempo, sottolinea un punto rilevante per la privacy: la nostra scrittura quotidiana porta silenziosamente una firma stabile e identificabile, radicata non in ciò che diciamo, ma in come la nostra mente ha imparato a dirlo.

Citazione: Nini, A., Halvani, O., Graner, L. et al. Grammar as a behavioral biometric: using cognitively motivated grammar models for authorship verification. Humanit Soc Sci Commun 13, 455 (2026). https://doi.org/10.1057/s41599-025-06340-3

Parole chiave: verifica dell’autore, stilometria, linguistica forense, biometria comportamentale, modellazione grammaticale