Clear Sky Science · pl

Gramatyka jako biometryka behawioralna: wykorzystanie poznawczo zmotywowanych modeli gramatyki do weryfikacji autorstwa

· Powrót do spisu

Dlaczego twój styl pisania jest jak odcisk palca

Za każdym razem, gdy piszesz — czy to e‑mail, recenzję, czy post w mediach społecznościowych — ujawniasz o sobie więcej, niż możesz przypuszczać. Poza wyborem tematów, drobne elementy zdań, takie jak małe słowa i interpunkcja, tworzą wzorce, które są zadziwiająco osobiste. Artykuł bada nowy sposób wykorzystania tych wzorców do ustalenia, czy dwa teksty napisała ta sama osoba, z możliwymi konsekwencjami dla prawa, bezpieczeństwa i naszego pojmowania tego, jak język funkcjonuje w umyśle.

Figure 1
Figure 1.

Jak śledczy decydują, kto co napisał

W kryminalistyce tekstu eksperci często stają przed pytaniami takimi jak: czy tę groźbę napisała ta sama osoba, która wysłała wcześniejszą wiadomość? Czy dwa konta online są kontrolowane przez jedną osobę? Tradycyjne podejścia do problemów autorstwa dzielą się na trzy obozy. Niektóre porównują tylko teksty znanego autora z tekstem spornym. Inne trenują klasyfikator na wielu przykładach par pasujących i niepasujących. Trzecia grupa, na której koncentruje się ten artykuł, wprowadza zewnętrzną „populację odniesienia” tekstów, aby ocenić, jak niezwykły jest dany styl pisania w porównaniu z wieloma innymi autorami. W ciągu ostatniej dekady dominowały potężne, lecz nieprzejrzyste techniki — zwłaszcza oparte na fragmentach znaków i głębokich sieciach neuronowych. Mogą one być jednak wolne, trudne do interpretacji i czasem bardziej zależne od tematu niż od rzeczywistych nawyków stylistycznych autora.

Od fraz do nawyków w umyśle

Autorzy osadzają swoją nową metodę w ramach językoznawstwa poznawczego, które traktuje gramatykę nie jako zestaw sztywnych reguł, lecz jako sieć wyuczonych wzorców. Według tego ujęcia nasze mózgi „sklejają” często powtarzające się sekwencje — jak „of the” czy „nie wiem” — w jednostki, które stają się automatyczne, podobnie jak wprawne kroki taneczne. Jednostki te znajdują się na kontinuum od stałych wyrażeń po elastyczne szablony i bardziej abstrakcyjne struktury. Ponieważ nasze doświadczenia i historia czytania się różnią, konkretne kombinacje, które głęboko utrwalają się w naszych umysłach, też są różne. Ta „zasada językowej indywidualności” sugeruje, że nie ma dwóch osób o dokładnie tej samej wewnętrznej gramatyce. Artykuł argumentuje, że ta zindywidualizowana gramatyka może funkcjonować jako rodzaj biometryki behawioralnej, porównywalnej duchem do pisma odręcznego czy chodu.

Przekształcanie ukrytej gramatyki w mierzalny sygnał

W oparciu o tę teorię autorzy przedstawiają LambdaG, metodę modelującą gramatykę autora przy celowym odsunięciu tematów i słów treściowych. Najpierw teksty przechodzą przez filtr, który zachowuje jedynie słowa funkcyjne, interpunkcję i kilka abstrakcyjnych kategorii, odsiewając nazwy i konkretne treści. Przefiltrowane teksty dzielone są na zdania i podawane do statystycznego modelu n‑gramowego, który uczy się, jak prawdopodobne są poszczególne krótkie sekwencje tokenów gramatycznych dla danego autora. Drugi zestaw modeli, trenowany na wielu innych pisarzach, pełni rolę populacji odniesienia. Dla każdego tokena w tekście spornym LambdaG pyta: o ile bardziej naturalny jest ten token w tym kontekście dla kandydata niż dla autorów referencyjnych? Porównania te łączy się w pojedynczy wynik odzwierciedlający zarówno podobieństwo do kandydata, jak i rzadkość w szerszej populacji. Prosta regresja logistyczna kalibruje następnie ten wynik, tak aby mógł być interpretowany jak stopniowana siła dowodu w zastosowaniach sądowych.

Figure 2
Figure 2.

Jak dobrze radzi sobie nowa metoda

Autorzy testują LambdaG na dwunastu zbiorach danych odwzorowujących sytuacje rzeczywiste: e‑maile, logi czatu, recenzje, artykuły prasowe i inne, często z relatywnie krótkimi tekstami. Porównują ją z siedmioma silnymi bazami odniesienia, w tym wpływową metodą Impostors, podejściem opartym na kompresji, zespołem odpornego na temat modelu oraz kilkoma systemami neuronowymi. W miarach takich jak dokładność i pole pod krzywą ROC LambdaG plasuje się na pierwszym miejscu w większości zbiorów i na drugim w kilku innych, często przewyższając modele neuronowe nawet wtedy, gdy te mają dostęp do pełnej treści. Jest także mniej wrażliwa niż wcześniejsze metody na zmiany w populacji odniesienia: wydajność spada, gdy teksty referencyjne pochodzą z bardzo innego gatunku, lecz nie do poziomu całkowitej bezużyteczności. Ponieważ wynik LambdaG można rozłożyć zdanie po zdaniu, a nawet token po tokenie, analitycy mogą tworzyć mapy cieplne, które wizualnie podkreślają, które wzorce w tekście najbardziej wpłynęły na decyzję.

Co to znaczy dla tożsamości i prywatności

Badanie konkluduje, że gramatyka jednostki — sposób, w jaki zwyczajowo splata ona małe słowa, interpunkcję i powtarzające się wzorce — działa podobnie jak biometryka behawioralna. Nawet w zaledwie jednym do dwóch tysięcy słów LambdaG może często wykryć idiosynkratyczne sekwencje, które wyraźnie odróżniają jedną osobę od innych, a autorzy argumentują, że wiele takich jednostek nie jest świadomie kontrolowanych przez samych pisarzy. Ma to oczywiste korzyści dla pracy sądowej: oferuje metodę stosunkowo prostą, empirycznie silną i osadzoną w dobrze rozwiniętej teorii lingwistycznej, co ułatwia wyjaśnienie jej rozumowania w sądzie. Jednocześnie podkreśla to aspekt związany z prywatnością: nasze codzienne pisanie cicho niesie stabilny, rozpoznawalny podpis, ugruntowany nie w tym, co mówimy, lecz w tym, jak nasz umysł nauczył się to mówić.

Cytowanie: Nini, A., Halvani, O., Graner, L. et al. Grammar as a behavioral biometric: using cognitively motivated grammar models for authorship verification. Humanit Soc Sci Commun 13, 455 (2026). https://doi.org/10.1057/s41599-025-06340-3

Słowa kluczowe: weryfikacja autorstwa, stylometria, lingwistyka sądowa, biometryka behawioralna, modelowanie gramatyki