Clear Sky Science · zh

一种用于多用户多模态人工智能的隐私保护检索系统

2026-02-24 · 返回目录

为何保持智能检索的隐私很重要

我们中许多人现在依赖基于云的人工智能来筛查照片、文档，甚至医学影像。这些系统之所以强大，是因为它们能理解图像和文字，但这也带来一个棘手的问题：我们如何在享受便利的同时，不把最敏感数据的含义交给远端服务器？本文提出了 PMIRS，一种旨在允许大量用户在混合的图像与文本集合上进行检索，同时将他们的信息对提供检索服务的云端机器隐藏起来的新系统。

在不暴露含义的情况下检索图片和文字

现代检索工具的核心是“嵌入”——用数值指纹来捕捉照片或句子的内容，以便计算机进行比较。标准系统将这些指纹直接发送到云端，云端可以分析甚至滥用它们。PMIRS 重新布局了这一流程。用户首先把原始图像和文本发送到本地层，使用紧凑的视觉-语言模型将其转换为指纹。在任何数据离开用户端之前，这些指纹会以可控方式进行扰乱并随后加密。云端只会看到这些受保护的指纹和完全加密的存储数据副本，但仍能执行匹配并返回最佳命中结果。

在不汇集数据的前提下从众多用户中学习

训练一个优秀的图像—文本模型通常需要将大量标注样本集中到一处——这是明显的隐私风险。PMIRS 则采用联邦学习。在这种设置中，底层模型（改编自知名的 CLIP 架构）被分发到许多设备上。每个设备在其私有的图像—文本对上进行本地训练，只回传经过加密的模型权重更新。中央服务器对这些更新进行平均，以在从未见到任何用户原始照片或描述的情况下改进共享模型。作者还通过分阶段的“蒸馏”过程对模型进行缩减和微调，剪除不必要的部分同时保留准确性，使系统足够轻量以便实际部署。

在扰乱的指纹中隐藏含义

PMIRS 用两层防护来保护查询。首先，每个指纹被切分为若干块，每块由一个秘密矩阵变换，并加入精心设计的噪声模式。这种扰乱隐藏了数据的原始结构，但设置方式使得当两个相关项目都被变换时，它们的相似性保持不变。其次，结果使用广泛采用的 AES 方法进行加密，密钥不会明文在网络上传输。在需要一人检索他人数据的场景——例如医生咨询专家时——系统使用 Diffie–Hellman 密钥交换协议，使双方能在不向窃听者暴露密钥的情况下协商共享的密钥。

系统在实际中的表现如何

为检验这些保护措施是否带来过高代价，研究者构建了一个基准，将日常图像与简短的自然语言短语配对——比单词标签更贴近人们实际的描述方式。他们将 PMIRS 与基于 CLIP 的标准检索在三类主题上进行了比较：自然场景、制造物体与活动或地貌。在多种库规模下，PMIRS 在召回（找到所有正确结果）与精确度（避免误匹配）之间始终取得更好的平衡，导致平均 F1 分数——一种综合准确性度量——比基线高约 7.7%。重要的是，响应时间保持在大约 180 毫秒以下，足以实现交互式使用，并且尽管增加了额外的保护步骤，响应常常比未加固的基线稍快。

这对日常用户意味着什么

简而言之，PMIRS 表明可以构建既能理解图像与文本、能同时服务大量用户又能将每个人数据含义对云服务提供方不可见的云端检索工具。通过结合本地训练、指纹的巧妙扰乱、强加密和安全的密钥交换，该系统提供了端到端的隐私保护流水线，而不仅仅是保护某一阶段。尽管它尚不能覆盖所有可能的攻击场景，仍需进一步完善和现实世界试验，但这项工作指向了未来的服务场景——例如医学影像查询、客户支持机器人或企业档案——用户可以在更少担忧个人内容被泄露或滥用的情况下，享受丰富的多模态 AI 检索功能。

引用: Gao, Y., Luo, W., Wang, C. et al. A privacy-preserving multi-user retrieval system for multimodal artificial intelligence. Sci Rep 16, 10348 (2026). https://doi.org/10.1038/s41598-026-40734-w

关键词: 隐私保护的人工智能, 多模态检索, 联邦学习, 加密检索, 安全云计算