Clear Sky Science · zh

大型语言模型在硼中子俘获疗法知识评估中的性能比较

· 返回目录

面向一种新型癌症放疗的智能辅导

硼中子俘获疗法(BNCT)是一种新兴的放射治疗,旨在在尽量保护邻近健康组织的同时摧毁肿瘤。随着这类复杂疗法从研究实验室向医院推广,医生与受训人员需要掌握大量新的专门知识。本研究提出了一个及时的问题:当今流行的人工智能聊天机器人能否在教学和支持BNCT方面发挥作用?如果可以,它们的可靠性如何?

BNCT与常规放疗有何不同?

BNCT的作用机制与标准X线或质子治疗大不相同。患者服用或注射含有特殊硼同位素的药物,该硼会在肿瘤细胞内富集。当这些细胞随后暴露于中子束时,硼原子发生微小的核反应,释放出射程极短的粒子,从内部杀死癌细胞,而使邻近组织基本不受损伤。这种高度靶向的方法对难治或缺氧肿瘤尤其有前景。直到最近,BNCT主要依赖核反应堆作为中子源,限制了其临床应用。日本在2020年批准了基于加速器的BNCT设备,随后在包括中国在内的国家出现了新的中心,使BNCT成为更多患者的现实选择——同时也带来了对集中培训和认证的迫切需求。

Figure 1
Figure 1.

对四大领先AI的测试

为了评估通用型聊天机器人在BNCT话题上的表现,研究人员设计了一套47道题的测试,涵盖基本概念、最新研究、临床实践以及计算和推理任务。题目以中文和英文两种语言编写,既包括简单事实(如定义),也包含需要逻辑或数值计算的较高难度问题。来自四个主要AI家族的代表性系统——由不同公司的广泛使用产品代表——在五个不同时间点、两种语言以及两种提问方式(简单直接的问题和置于短临床情景中的问题)下分别进行了测试。肿瘤护理领域的专家根据标准答案为每个回复评分,研究组还记录了AI承认不确定性的频率,例如说“我不知道”的情况。

谁答得最好?在何种题型上表现突出?

总体上,两个模型家族的表现明显优于另外两个。最强的系统准确率约为73%,第二名约为70%,而其余模型的得分约为62%和56%。有趣的是,表现最好的系统并非仅在记忆事实方面占优。它们在需要推理的题目上明显更胜一筹,而不是在简单的事实回忆上,这表明这些系统在这一狭窄医学领域内相对擅长多步思维任务,例如剂量计算或类似规划的题目。一个模型在事实题和推理题上得分几乎相同,而另一个模型尽管在推理题上略好于事实题,但总体上仍落后。

更新、语言与愿意说“我不知道”的程度

由于AI系统经常更新,研究人员还考察了从2023年底到2025年中期分布的五轮测试中性能如何变化。主要版本升级通常会带来明显的准确率跃升,而同一版本内的小幅调整影响较小。一个家族的准确率随时间从不到60%提高到超过80%,凸显了该技术的快速进步。令人惊讶的是,题目使用中文或英文提问,以及直接提问与置于角色扮演提示中,对结果的影响相比各模型的内在强项要小得多。更为显著的是各系统在出错时坦率程度的差异:有些模型在近五分之一的错误回答中承认不确定,而另一些很少这样做,常以自信但错误的答复代替。

Figure 2
Figure 2.

对医生、学生和患者意味着什么

研究得出结论:当前最好的通用聊天机器人已经能够提供对BNCT相对准确的解释和练习题,使其在教育和自学方面具有潜力。然而,没有任何系统可以被完全信任来正确回答所有BNCT相关问题,而且它们在表达或隐瞒不确定性方面的差异在安全层面上具有重要影响。目前,这些工具应被视为能够支持但不能替代专家判断的智能助手。作者认为,在AI能在这一高度专业化的癌症护理领域担任可靠前线角色之前,需要开发针对BNCT的专门AI模型,并制定明确的临床和课堂使用标准。

引用: Shen, S., Wang, S., Gao, M. et al. Performance comparison of large language models in boron neutron capture therapy knowledge assessment. Sci Rep 16, 5321 (2026). https://doi.org/10.1038/s41598-026-36322-7

关键词: 硼中子俘获疗法, 癌症放射治疗, 医学教育, 人工智能, 大型语言模型