Clear Sky Science · zh
将语法作为行为生物识别:使用认知驱动的语法模型进行作者验证
为什么你的写作风格像指纹
每次你写作——无论是电子邮件、评测还是社交媒体帖子——都会比你想象的透露更多关于你的信息。除了你选择的话题外,句子的微小构成要素,如小词和标点,会形成出人意料的个人化模式。本文探讨了一种利用这些模式判断两篇文本是否出自同一作者的新方法,并讨论其在法律、安全以及我们理解语言如何存在于大脑中的潜在影响。

调查者如何判断谁写了什么
在数字文本取证中,专家经常面临诸如:这封威胁邮件和早先的那条信息是不是同一人写的?两个在线账户是否由同一人控制?传统的作者识别方法大致分为三类。一类仅比较已知作者的文本与争议文本;另一类在大量匹配与不匹配的示例上训练分类器;第三类——也是本文关注的——则引入一个外部的“参考人群”文本库,以判断某种写作风格相对于其他大量作者有多罕见。过去十年中,基于字符片段和深度神经网络的强大但不透明技术在共享任务和评测中占主导地位。然而,它们可能运行缓慢、难以解释,并且有时更多受话题驱动,而非真正反映作者的风格习惯。
从短语到心智中的习惯
作者将新方法置于认知语言学基础之上,该领域将语法视为一张学习到的模式网络,而非一套僵化规则。根据这一观点,我们的大脑会将经常重复的序列——比如“of the”或“I don’t know”这类短语——“打块”成单位,变得自动化,类似于熟练的舞步。这些单位处于从固定表达到灵活模板再到更抽象结构的连续体上。由于个人经历和阅读史各异,深植于我们心智中的具体组合也各不相同。这一“语言个体性原理”表明,没有两个人拥有完全相同的内部语法。论文认为,这种个体化的语法可以作为一种行为生物识别,与笔迹或步态在精神上相当。
将隐藏的语法转化为可测量信号
在此理论基础上,作者提出了LambdaG,一种有意忽略话题和内容词而建模作者语法的方法。首先,文本通过一个过滤器,只保留功能词、标点和一些抽象类别,剥离人名和具体内容。这些过滤后的文本被拆分为句子并输入统计“n-gram”模型,学习每个小序列的语法标记对于该作者出现的概率。第二组模型在许多其他作者上训练,充当比较人群。对于争议文本中的每个标记,LambdaG都会问:在该上下文中,这个标记对于候选作者比对于参考作者群体来说自然得多吗?这些比较被合并为一个反映与候选作者相似度和在更广泛人群中罕见性的综合得分。最后,一个简单的逻辑回归对该得分进行校准,使其在法医场景中可被解释为一种不同强度的证据等级。

新方法的表现如何
作者在十二个模拟真实场景的数据集上测试了LambdaG:电子邮件、聊天记录、评测、新闻文章等,通常文本相对较短。他们将其与七个强基线方法比较,包括有影响力的冒名顶替者方法(Impostors Method)、基于压缩的方法、一个与话题无关的集成以及若干深度神经系统。在准确率和ROC曲线下面积等指标上,LambdaG在大多数数据集上排名第一,在若干数据集上位列第二,常常超过即便允许使用全部内容的神经模型。与早期方法相比,它对参考人群变化也不那么敏感:当参考文本来自截然不同的体裁时性能确实下降,但并未降到毫无用处的地步。因为LambdaG的得分可以逐句甚至逐标记分解,分析人员可以生成热图,直观地标示出哪些文本模式在判决中最有影响力。
对身份与隐私的意义
研究得出的结论是,个体的语法——他们习惯性地将小词、标点和重复模式编织在一起的方式——在很大程度上充当一种行为生物识别。即使只有一到两千字,LambdaG通常也能发现强烈区分个体的特有序列,且作者认为许多此类单元并非由写作者有意识控制。这对法医工作有明显好处:它提出了一种相对简单、经验证据强且有坚实语言学理论支撑的方法,使其推理更易在法庭上解释。同时,这也强调了一个与隐私相关的要点:我们的日常写作悄然携带着稳定且可识别的签名,根植于我们如何学会表达,而非我们说的内容。
引用: Nini, A., Halvani, O., Graner, L. et al. Grammar as a behavioral biometric: using cognitively motivated grammar models for authorship verification. Humanit Soc Sci Commun 13, 455 (2026). https://doi.org/10.1057/s41599-025-06340-3
关键词: 作者身份验证, 文本风格计量学, 法医语言学, 行为生物识别, 语法建模