Clear Sky Science · es

La gramática como biometría conductual: uso de modelos gramaticales motivados cognitivamente para la verificación de autoría

2026-03-03 · Volver al índice

Por qué tu estilo de escritura es como una huella dactilar

Cada vez que escribes —ya sea un correo, una reseña o una publicación en redes sociales— revelas más sobre ti de lo que podrías pensar. Más allá de los temas que eliges, los pequeños componentes de tus oraciones, como las palabras funcionales y la puntuación, forman patrones sorprendentemente personales. Este artículo explora una nueva manera de usar esos patrones para determinar si dos textos fueron escritos por la misma persona, con posibles implicaciones para el derecho, la seguridad y nuestra comprensión de cómo el lenguaje vive en la mente.

Cómo los investigadores deciden quién escribió qué

En la informática forense de textos, los expertos a menudo se enfrentan a preguntas como: ¿La misma persona escribió este correo amenazante y este mensaje anterior? ¿Dos cuentas en línea son controladas por un único individuo? Los enfoques tradicionales para estos problemas de autoría se dividen en tres grupos. Algunos comparan únicamente textos del autor conocido con el texto en disputa. Otros entrenan un clasificador con muchos ejemplos de pares coincidentes y no coincidentes. Un tercer grupo, en el que se centra este artículo, incorpora una “población de referencia” externa de textos para entender qué tan inusual es un estilo concreto en comparación con muchos otros escritores. Durante la última década, técnicas potentes pero opacas —especialmente las basadas en fragmentos de caracteres y redes neuronales profundas— han dominado tareas compartidas y benchmarks. Sin embargo, pueden ser lentas, difíciles de interpretar y a veces más impulsadas por el tema que por los verdaderos hábitos estilísticos del autor.

De las frases a los hábitos en la mente

Los autores fundamentan su nuevo método en la Lingüística Cognitiva, un campo que trata la gramática no como un conjunto de reglas rígidas, sino como una red de patrones aprendidos. Según esta perspectiva, nuestros cerebros “agrupan” secuencias repetidas con frecuencia —como “of the” o “I don’t know”— en unidades que se vuelven automáticas, muy parecido a pasos de baile bien ensayados. Estas unidades se sitúan en un continuo que va de expresiones fijas a plantillas flexibles y estructuras más abstractas. Debido a que nuestras experiencias e historiales de lectura difieren, las combinaciones particulares que se arraigan profundamente en nuestra mente también difieren. Este “principio de individualidad lingüística” sugiere que no hay dos personas que compartan exactamente la misma gramática interna. El artículo sostiene que esta gramática individualizada puede funcionar como una especie de biometría conductual, comparable en espíritu a la escritura a mano o la forma de andar.

Convertir la gramática oculta en una señal medible

Basándose en esta teoría, los autores presentan LambdaG, un método que modela la gramática de un autor mientras ignora deliberadamente los temas y las palabras de contenido. Primero, los textos pasan por un filtro que conserva únicamente las palabras funcionales, la puntuación y algunas categorías abstractas, eliminando nombres y contenido específico. Estos textos filtrados se dividen en oraciones y se introducen en un modelo estadístico de “n-gramas” que aprende cuán probable es cada pequeña secuencia de tokens gramaticales para ese autor. Un segundo conjunto de modelos, entrenado con muchos otros escritores, desempeña el papel de la población de comparación. Para cada token en un texto en disputa, LambdaG pregunta: ¿qué tan más natural es este token en este contexto para el autor candidato que para los escritores de referencia? Estas comparaciones se combinan en una sola puntuación que refleja tanto la similitud con el candidato como la rareza en la población más amplia. Una regresión logística simple calibra luego esta puntuación para que pueda interpretarse como un grado de fuerza de la evidencia en contextos forenses.

Qué tan bien se desempeña el nuevo método

Los autores prueban LambdaG en doce conjuntos de datos que imitan situaciones reales: correos, registros de chat, reseñas, artículos periodísticos y más, con frecuencia textos relativamente cortos. Lo comparan con siete referencias sólidas, incluyendo el influyente Método de Impostores, un enfoque basado en compresión, un conjunto independiente del tema y varios sistemas neuronales profundos. Según medidas como la exactitud y el área bajo la curva ROC, LambdaG queda en primer lugar en la mayoría de los conjuntos y en segundo en varios otros, superando a menudo a modelos neuronales incluso cuando a éstos se les permite explotar el contenido completo. También es menos sensible que métodos anteriores a cambios en la población de referencia: el rendimiento baja cuando los textos de referencia provienen de un género muy distinto, pero no hasta volverse inútil. Dado que la puntuación de LambdaG se puede desglosar oración por oración e incluso token por token, los analistas pueden producir mapas de calor que resaltan visualmente qué patrones en un texto fueron los más influyentes en la decisión.

Qué significa para la identidad y la privacidad

El estudio concluye que la gramática de un individuo —la manera en que habitualmente entrelaza palabras pequeñas, puntuación y patrones recurrentes— actúa de forma muy parecida a una biometría conductual. Incluso con tan solo mil o dos mil palabras, LambdaG a menudo puede descubrir secuencias idiosincráticas que distinguen con fuerza a una persona de otras, y los autores sostienen que muchas de estas unidades no están controladas conscientemente por los propios escritores. Esto tiene beneficios claros para el trabajo forense: ofrece un método relativamente simple, empíricamente sólido y anclado en una teoría lingüística bien desarrollada, lo que facilita explicar su razonamiento en un tribunal. Al mismo tiempo, subraya un punto relevante para la privacidad: nuestra escritura cotidiana lleva silenciosamente una firma estable e identificable, enraizada no en lo que decimos, sino en cómo nuestras mentes han aprendido a decirlo.

Cita: Nini, A., Halvani, O., Graner, L. et al. Grammar as a behavioral biometric: using cognitively motivated grammar models for authorship verification. Humanit Soc Sci Commun 13, 455 (2026). https://doi.org/10.1057/s41599-025-06340-3

Palabras clave: verificación de autoría, estilometría, lingüística forense, biometría conductual, modelado gramatical