Clear Sky Science · zh

通过注意力驱动水印与区块链认证的主动深度伪造缓解综合框架

2026-03-02 · 返回目录

为什么伪造视频是所有人的问题

现在可以用现成软件伪造看起来和听起来都真实的视频，使得线上真相与虚构的界限模糊不清。这些所谓的深度伪造已被用于欺诈、骚扰和政治操控。与其在假新闻传播后再去辨别真伪，本研究提出了不同的问题：如果我们能在视频生成时悄然保护真实视频，使之后的任何篡改变得显而易见，该怎么办？

从追查伪造到保护原始素材

目前大多数研究都试图在事后抓住深度伪造，通过训练算法识别生成模型留下的细微瑕疵。但随着这些模型不断改进，这种捉迷藏式的方式越来越难以奏效。作者主张采用一种主动方法：在拍摄时保护真实画面，使观众和平台随后能够验证所见是否为未经篡改的原件。他们的框架结合了三层：一个智能视频分析器决定哪里最需要保护，一个将不可见数字印记嵌入每帧的水印机制，以及一个将整个文件身份固定下来的区块链记录。

教系统识别视频中真正重要的部分

第一层是一个注意力模型，用于学习视频中哪些部分随时间包含最有意义的运动和细节。团队在成千上万段展示日常动作的短片上训练了一个紧凑而强大的网络。网络的一部分像看静态照片一样分析每一帧，另一部分则观察跨越16帧片段的运动变化。二者结合在一个标准动作识别测试上实现了超过97%的准确率，表明系统已学到关于人物和场景随时间变化的丰富模式。这些模式随后被转换为注意力图，突出显示任何篡改最可能影响视频叙事的区域。

将秘密印记藏在伪造者最容易破坏的地方

接下来，一个不可见的数字印记——水印——被嵌入到每一帧中，但并非以简单均匀的方式。一个生成网络创建出细微、噪声状的图案，并在注意力模型标记为重要的区域（如面部或运动的手部）中更强烈地混合，在其他区域则弱化以保持视觉质量。观众不会察觉差异，质量评分也表明被标记的帧几乎无法与原始帧区分。然而，该图案足够强且复杂，以至于一个配套的网络（作为解码器）可以随后从真实影像中逐帧恢复出隐藏的签名。

对深度伪造与日常失真进行考验

为了检验这种保护在现实世界中的有效性，作者进行了系列压力测试。他们先对一组多样化的短库存视频加入水印，然后将其输入到最广泛使用的人脸替换工具之一 DeepFaceLab，生成具有说服力的深度伪造。在50个被操控的片段中，每一个隐藏印记要么被破坏，要么被严重扰乱，系统都正确地将视频标记为已篡改。该方法在面对常见的处理步骤（如强压缩、重设尺寸和模糊）时也表现良好，这些处理在视频分享时经常发生，尽管非常强烈的随机噪声最终可能淹没隐藏信号。细致的实验表明，注意力引导和跨时运动信息的使用都是关键；移除任一组件都会使保护明显削弱。

用永久指纹锁定信任

最后一层超越了帧的内容，保护视频文件本身。水印嵌入后，将完整文件运行通过加密函数以生成短的数字指纹。该指纹连同关于视频的基本信息一起被写入区块链账本，无法在不留下痕迹的情况下被篡改。日后，任何人都可以上传一份视频副本：系统尝试恢复水印并重新计算指纹。如果隐藏印记与加密指纹都与原始记录匹配，则可高度自信地将该视频视为真实；若任一项不符，观众则可知该素材已被更改。

这对你所见视频意味着什么

简单来说，这项工作表明我们可以从猜测视频是否为伪造，转向证明视频是真实的。通过在每帧最有意义的部分悄然嵌入智能且难以伪造的印记，并用防篡改的账本条目进行备份，该框架能捕捉住所有测试过的人脸替换攻击并经受住许多日常失真。尽管在极端视觉噪声下仍有局限并需要更广泛的测试，但它指向了一个未来：摄像机、平台和新闻编辑部可以随视频一起发布内置的真实性证明——从而大大增加深度伪造冒充真实的难度。

引用: Hajjej, F., Hamid, M. & Alluhaidan, A.S. An integrated framework for proactive deepfake mitigation via attention-driven watermarking and blockchain-based authenticity verification. Sci Rep 16, 9545 (2026). https://doi.org/10.1038/s41598-026-40166-6

关键词: 深度伪造防护, 视频真实性, 数字水印, 区块链验证, 媒体安全