Clear Sky Science · pt

Gramática como biometria comportamental: usando modelos gramaticais motivados cognitivamente para verificação de autoria

2026-03-03 · Voltar ao índice

Por que seu estilo de escrita é como uma impressão digital

Cada vez que você escreve — seja um e‑mail, uma avaliação ou uma publicação em redes sociais — você revela mais sobre si do que imagina. Além dos tópicos que escolhe, os pequenos blocos que formam suas frases, como palavras funcionais e pontuação, criam padrões surpreendentemente pessoais. Este artigo explora uma nova forma de usar esses padrões para determinar se dois textos foram escritos pela mesma pessoa, com implicações potenciais para o direito, a segurança e nossa compreensão de como a linguagem vive na mente.

Como os investigadores decidem quem escreveu o quê

Na perícia de textos digitais, especialistas frequentemente enfrentam questões como: a mesma pessoa escreveu este e‑mail ameaçador e aquela mensagem anterior? Duas contas online são controladas por um único indivíduo? Abordagens tradicionais para esses problemas de autoria dividem‑se em três grupos. Algumas comparam apenas textos do autor conhecido com o texto em disputa. Outras treinam um classificador com muitos exemplos de pares correspondentes e não correspondentes. Um terceiro grupo, foco deste artigo, traz uma “população de referência” externa de textos para entender quão incomum é um determinado estilo em comparação com muitos outros escritores. Na última década, técnicas poderosas porém opacas — especialmente as baseadas em snippets de caracteres e redes neurais profundas — dominaram tarefas compartilhadas e benchmarks. Contudo, podem ser lentas, difíceis de interpretar e às vezes impulsionadas mais pelo tópico do que pelos verdadeiros hábitos estilísticos do autor.

Das frases aos hábitos na mente

Os autores fundamentam seu novo método na Linguística Cognitiva, campo que trata a gramática não como um conjunto de regras rígidas, mas como uma rede de padrões aprendidos. Nessa visão, nossos cérebros “empacotam” sequências repetidas com frequência — como “of the” ou “I don’t know” — em unidades que se tornam automáticas, muito parecido com passos de dança bem ensaiados. Essas unidades variam desde expressões fixas até modelos flexíveis e estruturas mais abstratas. Como nossas experiências e historiais de leitura diferem, as combinações que ficam profundamente enraizadas em cada mente também diferem. Esse “princípio da individualidade linguística” sugere que não há duas pessoas com exatamente a mesma gramática interna. O artigo argumenta que essa gramática individualizada pode funcionar como uma espécie de biometria comportamental, comparável em espírito à caligrafia ou à maneira de andar.

Transformando gramática oculta em sinal mensurável

Com base nessa teoria, os autores apresentam o LambdaG, método que modela a gramática de um autor enquanto ignora deliberadamente tópicos e palavras de conteúdo. Primeiro, os textos passam por um filtro que preserva apenas palavras funcionais, pontuação e algumas categorias abstratas, removendo nomes e conteúdo específico. Esses textos filtrados são divididos em sentenças e alimentados em um modelo estatístico de “n‑gramas” que aprende quão provável é cada pequena sequência de tokens gramaticais para aquele autor. Um segundo conjunto de modelos, treinado em muitos outros escritores, desempenha o papel da população de comparação. Para cada token em um texto em disputa, o LambdaG pergunta: quão mais natural é esse token neste contexto para o autor candidato do que para os escritores de referência? Essas comparações são combinadas em um único escore que reflete tanto a semelhança com o candidato quanto a raridade na população mais ampla. Uma regressão logística simples então calibra esse escore para que possa ser interpretado como uma força graduada de evidência em contextos forenses.

Como o novo método se sai

Os autores testam o LambdaG em doze conjuntos de dados que imitam situações do mundo real: e‑mails, registros de chat, avaliações, artigos de notícias e mais, frequentemente com textos relativamente curtos. Eles o comparam com sete fortes linhas de base, incluindo o influente Método dos Impostores, uma abordagem baseada em compressão, um conjunto agnóstico ao tópico e vários sistemas neurais profundos. Em medidas como acurácia e área sob a curva ROC, o LambdaG fica em primeiro lugar na maioria dos conjuntos e em segundo em vários outros, frequentemente superando modelos neurais mesmo quando esses modelos podem explorar o conteúdo completo. Também é menos sensível que métodos anteriores a mudanças na população de referência: o desempenho diminui quando os textos de referência vêm de um gênero muito diferente, mas não a ponto de se tornar inútil. Como o escore do LambdaG pode ser decomposto sentença por sentença e até token por token, analistas podem gerar mapas de calor que destacam visualmente quais padrões em um texto foram mais influentes na decisão.

O que isso significa para identidade e privacidade

O estudo conclui que a gramática de um indivíduo — a forma como ele habitualmente entrelaça palavras pequenas, pontuação e padrões recorrentes — age muito como uma biometria comportamental. Mesmo em tão poucas quanto mil a duas mil palavras, o LambdaG frequentemente consegue descobrir sequências idiossincráticas que distinguem fortemente uma pessoa das demais, e os autores argumentam que muitas dessas unidades não são controladas conscientemente pelos próprios escritores. Isso traz benefícios claros para a perícia: oferece um método relativamente simples, empiricamente robusto e ancorado em uma teoria linguística bem desenvolvida, tornando seu raciocínio mais fácil de explicar em juízo. Ao mesmo tempo, sublinha um ponto relevante para a privacidade: nossa escrita cotidiana carrega silenciosamente uma assinatura estável e identificável, enraizada não no que dizemos, mas em como nossas mentes aprenderam a dizê‑lo.

Citação: Nini, A., Halvani, O., Graner, L. et al. Grammar as a behavioral biometric: using cognitively motivated grammar models for authorship verification. Humanit Soc Sci Commun 13, 455 (2026). https://doi.org/10.1057/s41599-025-06340-3

Palavras-chave: verificação de autoria, estilometria, linguística forense, biometria comportamental, modelagem gramatical