Clear Sky Science · nl
Grammatica als gedragsbiometrie: gebruik van cognitief gemotiveerde grammaticamodellen voor auteursverificatie
Waarom uw schrijftijl op een vingerafdruk lijkt
Elke keer dat u schrijft—of het nu een e-mail, een recensie of een bericht op sociale media is—onthult u meer over uzelf dan u misschien denkt. Buiten de onderwerpen die u kiest, vormen de kleine bouwstenen van uw zinnen, zoals functiewoorden en interpunctie, patronen die verrassend persoonlijk zijn. Dit artikel verkent een nieuwe manier om die patronen te gebruiken om te bepalen of twee teksten door dezelfde persoon zijn geschreven, met potentiële implicaties voor recht, veiligheid en ons begrip van hoe taal in de geest leeft.

Hoe onderzoekers bepalen wie wat heeft geschreven
In digitale tekstforensiek krijgen experts vaak vragen als: heeft dezelfde persoon deze dreigende e-mail en dit eerdere bericht geschreven? Worden twee online accounts beheerd door één individu? Traditionele benaderingen van deze auteursvraagstukken vallen in drie kampen. Sommige methoden vergelijken alleen teksten van de bekende auteur met de betwiste tekst. Andere trainen een classifier op veel voorbeelden van overeenkomende en niet-overeenkomende paren. Een derde groep, waarop dit artikel zich richt, haalt een externe “referentiebeschrijving” van teksten binnen om te begrijpen hoe ongebruikelijk een bepaalde schrijftijl is vergeleken met veel andere schrijvers. In het afgelopen decennium hebben krachtige maar ondoorzichtige technieken—vooral gebaseerd op tekenreeksen en diepe neurale netwerken—de gedeelde taken en benchmarks gedomineerd. Ze kunnen echter traag zijn, lastig te interpreteren en soms meer gestuurd door onderwerp dan door de werkelijke stilistische gewoonten van een schrijver.
Van zinnen naar gewoonten in de geest
De auteurs funderen hun nieuwe methode in de cognitieve taalkunde, een veld dat grammatica niet ziet als een stel starre regels, maar als een netwerk van aangeleerde patronen. Volgens dit perspectief ‘chunk’ onze hersenen vaak herhaalde sequenties—zoals “of de” of “ik weet niet”—tot eenheidjes die automatisch worden, vergelijkbaar met goed geoefende danspassen. Deze eenheden liggen op een continuüm van vaste uitdrukkingen tot flexibele sjablonen en meer abstracte structuren. Omdat onze ervaringen en leesgeschiedenissen verschillen, zijn de specifieke combinaties die diep in onze geest verankerd raken ook verschillend. Dit “principe van linguïstische individualiteit” suggereert dat geen twee mensen precies dezelfde interne grammatica delen. De paper betoogt dat deze geïndividualiseerde grammatica kan functioneren als een soort gedragsbiometrie, vergelijkbaar in geest met handschrift of looppatroon.
Verborgen grammatica omzetten in een meetbaar signaal
Voortbouwend op deze theorie introduceren de auteurs LambdaG, een methode die de grammatica van een auteur modelleert terwijl onderwerpen en inhoudswoorden opzettelijk worden genegeerd. Eerst gaan de teksten door een filter dat alleen functiewoorden, interpunctie en enkele abstracte categorieën behoudt, waardoor namen en specifieke inhoud worden weggefilterd. Deze gefilterde teksten worden opgesplitst in zinnen en gevoed aan een statistisch “n-gram”-model dat leert hoe waarschijnlijk elke kleine sequentie grammaticale tokens is voor die auteur. Een tweede set modellen, getraind op veel andere schrijvers, vervult de rol van de vergelijkingspopulatie. Voor elk token in een betwiste tekst vraagt LambdaG: hoezeer is dit token in deze context natuurlijker voor de kandidaat-auteur dan voor de referentieschrijvers? Deze vergelijkingen worden gecombineerd tot een enkele score die zowel gelijkenis met de kandidaat als zeldzaamheid in de bredere populatie weerspiegelt. Een eenvoudige logistieke regressie kalibreert deze score zodat deze geïnterpreteerd kan worden als een graduele bewijskracht in forensische contexten.

Hoe goed de nieuwe methode presteert
De auteurs testen LambdaG op twaalf datasets die realistische situaties nabootsen: e-mails, chats, recensies, nieuwsartikelen en meer, vaak met relatief korte teksten. Ze vergelijken het met zeven sterke baselines, waaronder de invloedrijke Impostors Method, een compressie-gebaseerde aanpak, een onderwerp-agnostische ensemble en verschillende diepe neurale systemen. Over maatstaven zoals nauwkeurigheid en area under the ROC-curve staat LambdaG op de meeste datasets op de eerste plaats en op meerdere andere op de tweede plaats, en overtreft het vaak neurale modellen, zelfs wanneer die modellen de volledige inhoud mogen gebruiken. Het is ook minder gevoelig dan eerdere methoden voor veranderingen in de referentiepopulatie: de prestatie daalt wanneer de referentieteksten uit een heel ander genre komen, maar niet zodanig dat het nutteloos wordt. Omdat de score van LambdaG zin-voor-zin en zelfs token-voor-token kan worden uitgesplitst, kunnen analisten heatmaps produceren die visueel benadrukken welke patronen in een tekst het meest invloedrijk waren in de beslissing.
Wat het betekent voor identiteit en privacy
De studie concludeert dat iemands grammatica—de manier waarop die persoon gewoonlijk kleine woorden, interpunctie en terugkerende patronen aaneenrijgt—veel weg heeft van een gedragsbiometrische eigenschap. Zelfs in zo weinig als één tot twee duizend woorden kan LambdaG vaak idiosyncratische sequenties onthullen die iemand sterk onderscheiden van anderen, en de auteurs stellen dat veel van zulke eenheden niet bewust door schrijvers worden gecontroleerd. Dit heeft duidelijke voordelen voor forensisch werk: het biedt een methode die relatief eenvoudig, empirisch krachtig en verankerd is in een goed ontwikkelde taalkundige theorie, waardoor de redenering makkelijker in de rechtszaal uit te leggen is. Tegelijk benadrukt het een privacy-relevant punt: ons alledaagse schrijven draagt stilletjes een stabiele, identificeerbare signatuur, geworteld niet in wat we zeggen, maar in hoe onze geest heeft geleerd het te zeggen.
Bronvermelding: Nini, A., Halvani, O., Graner, L. et al. Grammar as a behavioral biometric: using cognitively motivated grammar models for authorship verification. Humanit Soc Sci Commun 13, 455 (2026). https://doi.org/10.1057/s41599-025-06340-3
Trefwoorden: auteursverificatie, stylometrie, forensische taalwetenschap, gedragsbiometrie, grammaticamodellering