Clear Sky Science · zh
为医疗器械中的生成式人工智能创新全球监管框架是紧迫的优先事项
这为什么关系到你的健康
生成式人工智能,包括先进聊天机器人等工具,正迅速进入医生诊所和医院。这些系统可以撰写门诊病历、回答健康问题,甚至建议诊断。本文综述解释了为何我们当前针对医疗器械的规则尚未为如此灵活且不可预测的技术做好准备,以及为何更新这些规则对在全球范围内实现安全、公平和可信的医疗至关重要。 
能做远不止一件事的新工具
较早期的医疗软件被设计为执行一项明确定义的任务,例如在影像中识别肿瘤。相比之下,生成式人工智能和大型语言模型可以处理多种不同的工作,从总结病历到就治疗方案提供建议。它们以大量在线文本、图像和其他数据进行训练,这使它们功能强大,但也难以完全理解或控制。由于它们的回答可能在每次使用时变化,且可能包含自信但错误的“幻觉”,因此它们并不容易归入为更可预测工具设计的现有医疗器械类别之中。
为何现有安全规则不足
监管者尝试采用“产品全生命周期”方法,从设计到真实世界使用跟踪器械。这对许多类型的人工智能有帮助,但本文认为对于大型语言模型来说仍不足够。几乎不可能检查所有训练数据以查找错误或隐藏的个人信息。评估这些系统的有效性也很棘手,因为它们冗长、开放式的回答难以用简单的准确性测试评分。研究显示,一些模型在考试式问题上表现良好,但在复杂的现实案例中却力不从心,且在关键任务上可能不及临床医生。此外,目前没有公认的方法来衡量或监测偏差,这意味着系统可能悄然对某些患者群体表现较差。
部署后的隐性风险
一旦大型语言模型工具发布,追踪其安全性变得更加复杂。许多模型建立在共享的基础系统上,随后由不同公司进行调整或再训练,使得很难确切知道底层使用了哪些数据和变更。一些工具作为健康咨询应用直接面向患者,而未经过正式审批。问题可能未被报告,尤其是当错误埋藏在由人工智能记录员起草的长篇门诊记录中时。依赖于证明与旧产品“相似性”的现有批准路径可能会被用于实际上相当不同的工具。同时,隐私、自主性、信任及对医患关系影响等伦理问题在现行法规中仅得到部分关注。 
构建更聪明、更公平的监管
作者强调了使监管更灵活、更有效的一些新思路。“监管沙盒”允许在受控的有限环境中对新型人工智能工具进行监督测试,从而使监管者和开发者能够从实践中学习并迅速调整规则。像“作为医疗服务的软件”这样的新概念旨在将高度自动化的人工智能代理更多地视为持续性的健康服务,而非固定的产品。本文还强调了解整个供应链的重要性,从数据收集与模型构建到云托管与硬件,这样当数字工具失效或遭受攻击时,卫生系统才能保持韧性。全球监管者、研究人员与卫生系统网络已经开始共享检查清单、测试标准与监督实验室,以协调他们的努力。
将公平置于中心
一个主要关切是生成式人工智能可能拉大或缩小富裕与欠发达地区之间的健康差距。如果模型主要以高收入国家的数据为训练基础,它们在资源匮乏环境或代表性不足的社区中可能表现不佳。文章呼吁有意纳入来自低收入和中等收入国家的观点与数据,并支持这些地区安全地构建与部署自身的人工智能工具。以健康公平为中心的报告标准和评估工具可以揭示隐藏的偏见,而合作则可帮助将成功的人工智能从试点项目推向真实诊所,避免将脆弱群体落在后面。
前行的含义
简而言之,文章得出结论:医学领域的生成式人工智能发展速度超过了现有规则手册。为保护患者并赢得信任,各国需共同制定新的、具适应性的监管框架,以跟上不断变化的模型步伐,同时维护隐私、安全与公平。作者设想设立独立的全球机构来制定共享标准,类似于现有的网络安全标准,使世界各地的医院和患者都能从这些工具中受益,而不暴露于可避免的伤害之中。
引用: Ong, J.C.L., Ning, Y., Liu, M. et al. Innovating global regulatory frameworks for generative AI in medical devices is an urgent priority. npj Digit. Med. 9, 364 (2026). https://doi.org/10.1038/s41746-026-02552-2
关键词: 生成式人工智能, 医疗器械, 医疗监管, 大型语言模型, 健康公平