Clear Sky Science · zh

使用信息同位素审计来自 AI 生成内容的未授权训练数据

· 返回目录

这对日常上网用户为何重要

现代 AI 系统从大量人类创作的文本中学习——新闻报道、小说、代码,甚至社交媒体帖子。但这些材料中许多受版权保护或包含高度个人化的信息,而 AI 公司很少公开它们到底使用了什么。本文提出了一种实用方法,使普通用户、出版方和监管机构能够仅凭 AI 的输出检查某个黑盒系统是否在训练中使用了他们的数据。这在保护隐私和知识产权方面,对强大聊天机器人的时代可能具有改变局面的意义。

引用: Qi, T., Yin, J., Cai, D. et al. Auditing unauthorized training data from AI generated content using information isotopes. Nat Commun 17, 3007 (2026). https://doi.org/10.1038/s41467-026-68862-x

关键词: AI 训练数据审计, 信息同位素, 数据隐私, 版权与 AI, 黑盒语言模型