Clear Sky Science · sv

Grammatik som en beteendemässig biometri: att använda kognitivt motiverade grammatikkartor för författarverifiering

· Tillbaka till index

Varför din skrivstil är som ett fingeravtryck

Varje gång du skriver — vare sig det är ett e‑postmeddelande, en recension eller ett inlägg i sociala medier — avslöjar du mer om dig själv än du kanske tror. Utöver de ämnen du väljer bildar de små byggstenarna i dina meningar, såsom småord och skiljetecken, mönster som är förvånansvärt personliga. Den här artikeln utforskar ett nytt sätt att använda dessa mönster för att avgöra om två texter skrevs av samma person, med potentiella konsekvenser för juridik, säkerhet och vår förståelse av hur språk finns i sinnet.

Figure 1
Figure 1.

Hur utredare avgör vem som skrev vad

I digital textforensik ställs experter ofta inför frågor som: Var det samma person som skrev detta hotfulla mejl och detta tidigare meddelande? Kontrolleras två onlinekonton av samma individ? Traditionella angreppssätt för dessa författarfrågor delas in i tre läger. Vissa jämför endast texter från den kända författaren med den ifrågasatta texten. Andra tränar en klassificerare på många exempel av matchande och icke‑matchande par. Ett tredje tillvägagångssätt, som denna artikel fokuserar på, använder en extern ”referenspopulation” av texter för att förstå hur ovanlig en viss skrivstil är jämfört med många andra skribenter. Under det senaste decenniet har kraftfulla men svårtolkade tekniker — särskilt de baserade på teckensekvenser och djupa neurala nätverk — dominerat delade uppgifter och benchmarkar. De kan dock vara långsamma, svåra att tolka och ibland mer påverkade av ämnesinnehåll än av skribentens verkliga stilvanor.

Från fraser till vanor i sinnet

Författarna förankrar sin nya metod i kognitiv lingvistik, ett fält som betraktar grammatik inte som ett antal rigida regler utan som ett nätverk av inlärda mönster. Enligt detta synsätt ”chunkar” våra hjärnor frekvent upprepade sekvenser — som ”of the” eller ”I don’t know” — till enheter som blir automatiska, ungefär som välövade danssteg. Dessa enheter ligger på ett kontinuum från fasta uttryck till flexibla mallar och mer abstrakta strukturer. Eftersom våra erfarenheter och läsvanor skiljer sig åt blir också de särskilda kombinationer som blir djupt inrotade i våra sinnen olika. Denna ”princip om språklig individualitet” antyder att inga två personer delar exakt samma interna grammatik. Artikeln argumenterar för att denna individualiserade grammatik kan fungera som en sorts beteendemässig biometri, jämförbar i anda med handstil eller gång.

Att göra dold grammatik mätbar

Med utgångspunkt i denna teori introducerar författarna LambdaG, en metod som modellerar en författares grammatik samtidigt som den medvetet ignorerar ämnen och innehållsord. Först passerar texterna ett filter som bara behåller funktionsord, skiljetecken och några få abstrakta kategorier, och tar bort namn och specifikt innehåll. Dessa filtrerade texter delas upp i meningar och matas in i en statistisk ”n‑gram”‑modell som lär sig hur sannolikt varje liten sekvens av grammatiska token är för den författaren. En andra uppsättning modeller, tränade på många andra skribenter, fungerar som jämförelsepopulation. För varje token i en ifrågasatt text frågar LambdaG: hur mycket mer naturlig är denna token i detta sammanhang för den kandidatförfattaren än för referensförfattarna? Dessa jämförelser kombineras till en enda poäng som speglar både likhet med kandidaten och sällsynthet i den bredare populationen. En enkel logistisk regression kalibrerar sedan denna poäng så att den kan tolkas som en graderad styrka av bevis i rättsmedicinska sammanhang.

Figure 2
Figure 2.

Hur bra den nya metoden står sig

Författarna testar LambdaG på tolv dataset som efterliknar verkliga situationer: e‑post, chattloggar, recensioner, nyhetsartiklar med mera, ofta med relativt korta texter. De jämför den med sju starka baslinjer, inklusive den inflytelserika Impostors Method, ett kompressionsbaserat angreppssätt, ett ämnesoberoende ensemble och flera djupa neurala system. Över mått som noggrannhet och area under ROC‑kurvan hamnar LambdaG först på de flesta dataset och tvåa på flera andra, ofta före neurala modeller även när dessa tillåts utnyttja fullt innehåll. Den är också mindre känslig än tidigare metoder för förändringar i referenspopulationen: prestandan sjunker när referenstexterna kommer från en mycket annan genre, men inte så mycket att metoden blir oanvändbar. Eftersom LambdaG:s poäng kan brytas ner mening för mening och till och med token för token kan analytiker producera värmekartor som visuellt lyfter fram vilka mönster i en text som var mest inflytelserika i beslutet.

Vad det betyder för identitet och integritet

Studien slutar i att en individs grammatik — sättet de vanemässigt väver ihop småord, skiljetecken och återkommande mönster — fungerar mycket som en beteendemässig biometri. Redan i så få som ett till två tusen ord kan LambdaG ofta upptäcka idiosynkratiska sekvenser som tydligt skiljer en person från andra, och författarna menar att många sådana enheter inte styrs medvetet av skribenterna själva. Det här har tydliga fördelar för forensiskt arbete: det erbjuder en metod som är relativt enkel, empiriskt stark och förankrad i en välutvecklad lingvistisk teori, vilket gör dess resonemang lättare att förklara i domstol. Samtidigt understryker det en integritetsrelevant poäng: vår vardagliga skrift bär tyst på en stabil, identifierbar signatur, rotad inte i vad vi säger utan i hur våra sinnen har lärt sig säga det.

Citering: Nini, A., Halvani, O., Graner, L. et al. Grammar as a behavioral biometric: using cognitively motivated grammar models for authorship verification. Humanit Soc Sci Commun 13, 455 (2026). https://doi.org/10.1057/s41599-025-06340-3

Nyckelord: författarverifiering, stylometri, rättsspråkvetenskap, beteendemässig biometri, grammatikmodellering