Clear Sky Science · de

Grammatik als verhaltensbiometrisches Merkmal: Verwendung kognitiv motivierter Grammatikmodelle zur Autorenverifikation

· Zurück zur Übersicht

Warum Ihr Schreibstil wie ein Fingerabdruck ist

Jedes Mal, wenn Sie schreiben — sei es eine E-Mail, eine Rezension oder ein Beitrag in sozialen Medien — verraten Sie mehr über sich, als Sie vielleicht denken. Über die behandelten Themen hinaus bilden die winzigen Bausteine Ihrer Sätze, wie kleine Wörter und Interpunktion, Muster, die überraschend persönlich sind. Dieser Artikel untersucht einen neuen Weg, diese Muster zu nutzen, um festzustellen, ob zwei Texte von derselben Person stammen, mit möglichen Folgen für Recht, Sicherheit und unser Verständnis davon, wie Sprache im Geist verankert ist.

Figure 1
Figure 1.

Wie Ermittler entscheiden, wer was geschrieben hat

In der digitalen Textforensik stehen Experten oft vor Fragen wie: Hat dieselbe Person diese Droh-E-Mail und diese frühere Nachricht verfasst? Werden zwei Online-Konten von ein und derselben Person betrieben? Traditionelle Ansätze zu solchen Autorenfragen lassen sich in drei Lager einteilen. Einige vergleichen nur Texte des bekannten Autors mit dem strittigen Text. Andere trainieren einen Klassifikator an vielen Beispielen übereinstimmender und nicht-übereinstimmender Paare. Eine dritte Gruppe, auf die sich dieses Papier konzentriert, bezieht eine äußere „Referenzpopulation“ von Texten ein, um einzuschätzen, wie ungewöhnlich ein bestimmter Schreibstil im Vergleich zu vielen anderen Schreibern ist. Im letzten Jahrzehnt dominierten leistungsstarke, aber undurchsichtige Techniken — insbesondere solche, die auf Zeichen-Snippets und tiefen neuronalen Netzen basieren — gemeinsame Aufgaben und Benchmarks. Sie können jedoch langsam, schwer interpretierbar sein und manchmal stärker vom Thema als von tatsächlichen stilistischen Gewohnheiten des Autors gesteuert werden.

Von Phrasen zu Gewohnheiten im Geist

Die Autorinnen und Autoren verankern ihre neue Methode in der kognitiven Linguistik, einem Feld, das Grammatik nicht als Satz starrer Regeln, sondern als Netzwerk erlernter Muster betrachtet. Nach dieser Sichtweise „chunkt“ unser Gehirn häufig wiederkehrende Sequenzen — wie „of the“ oder „I don’t know“ — zu Einheiten, die automatisch werden, ähnlich wie eingeübte Tanzschritte. Diese Einheiten liegen auf einem Kontinuum von festen Ausdrücken bis zu flexiblen Vorlagen und abstrakteren Strukturen. Weil unsere Erfahrungen und Lesegeschichten unterschiedlich sind, unterscheiden sich auch die speziellen Kombinationen, die sich tief in unserem Gedächtnis verankern. Dieses „Prinzip sprachlicher Individualität“ legt nahe, dass kein zwei Personen genau dieselbe interne Grammatik teilen. Das Papier argumentiert, dass diese individualisierte Grammatik als eine Art verhaltensbiometrisches Merkmal fungieren kann, vergleichbar im Geist mit Handschrift oder Gangbild.

Verborgene Grammatik in ein messbares Signal verwandeln

Aufbauend auf dieser Theorie führen die Autorinnen und Autoren LambdaG ein, eine Methode, die die Grammatik eines Autors modelliert und dabei gezielt Themen und Inhaltswörter ausblendet. Zuerst werden die Texte durch einen Filter geleitet, der nur Funktionswörter, Interpunktion und einige abstrakte Kategorien behält und damit Namen und spezifische Inhalte entfernt. Diese gefilterten Texte werden in Sätze zerlegt und in ein statistisches n-Gramm-Modell eingespeist, das lernt, wie wahrscheinlich jede kleine Sequenz grammatischer Token für diesen Autor ist. Ein zweiter Satz von Modellen, trainiert an vielen anderen Schreibern, übernimmt die Rolle der Vergleichspopulation. Für jedes Token in einem strittigen Text fragt LambdaG: Wie viel natürlicher ist dieses Token in diesem Kontext für den Kandidatenautor als für die Referenzschreiber? Diese Vergleiche werden zu einer einzigen Punktzahl kombiniert, die sowohl Ähnlichkeit zum Kandidaten als auch Seltenheit in der breiteren Population widerspiegelt. Eine einfache logistische Regression kalibriert diese Punktzahl anschließend, sodass sie in forensischen Kontexten wie eine abgestufte Beweisstärke interpretiert werden kann.

Figure 2
Figure 2.

Wie gut die neue Methode abschneidet

Die Autorinnen und Autoren testen LambdaG an zwölf Datensätzen, die reale Situationen nachbilden: E-Mails, Chats, Rezensionen, Nachrichtenartikel und mehr, oft mit relativ kurzen Texten. Sie vergleichen es mit sieben starken Baselines, darunter die einflussreiche Impostors-Methode, ein kompressionsbasierter Ansatz, ein themenunabhängiges Ensemble und mehrere tiefe neuronale Systeme. Über Maße wie Genauigkeit und Fläche unter der ROC-Kurve liegt LambdaG auf den meisten Datensätzen an erster Stelle und auf mehreren weiteren an zweiter, oft vor neuronalen Modellen, selbst wenn diese den vollen Inhalt ausnutzen dürfen. Es ist außerdem weniger anfällig als frühere Methoden gegenüber Veränderungen in der Referenzpopulation: Die Leistung fällt zwar, wenn die Referenztexte aus einem sehr unterschiedlichen Genre stammen, jedoch nicht so stark, dass die Methode unbrauchbar würde. Da sich LambdaG’s Punktzahl satzweise und sogar tokenweise aufschlüsseln lässt, können Analysten Heatmaps erstellen, die visuell hervorheben, welche Muster in einem Text für die Entscheidung am einflussreichsten waren.

Was das für Identität und Privatsphäre bedeutet

Die Studie kommt zu dem Schluss, dass die Grammatik eines Individuums — die Art, wie es habitualisiert kleine Wörter, Interpunktion und wiederkehrende Muster verknüpft — ähnlich wie ein verhaltensbiometrisches Merkmal wirkt. Schon in wenigen tausend Wörtern kann LambdaG oft idiosynkratische Sequenzen aufdecken, die eine Person stark von anderen unterscheiden, und die Autorinnen und Autoren argumentieren, dass viele solcher Einheiten nicht bewusst von den Schreibern kontrolliert werden. Das hat klare Vorteile für forensische Arbeit: Es bietet eine Methode, die relativ einfach, empirisch stark und in einer wohlentwickelten linguistischen Theorie verankert ist, wodurch sich ihre Schlussfolgerungen vor Gericht leichter erklären lassen. Gleichzeitig unterstreicht es einen datenschutzrelevanten Punkt: Unser alltägliches Schreiben trägt stillschweigend eine stabile, identifizierbare Signatur in sich, die nicht darin liegt, was wir sagen, sondern darin, wie unser Geist gelernt hat, es zu sagen.

Zitation: Nini, A., Halvani, O., Graner, L. et al. Grammar as a behavioral biometric: using cognitively motivated grammar models for authorship verification. Humanit Soc Sci Commun 13, 455 (2026). https://doi.org/10.1057/s41599-025-06340-3

Schlüsselwörter: Autorenverifikation, Stylometrie, forensische Linguistik, verhaltensbiometrie, Grammatikmodellierung