Clear Sky Science · zh
PETWB-REP:一个包含对应放射科报告的多癌种全身FDG PET/CT数据集
为什么这个新的癌症影像资源很重要
肿瘤科医生越来越依赖先进的扫描技术和计算工具来观察肿瘤在全身的表现。但强大的人工智能系统需要大量、经过精心组织的真实患者扫描数据来训练,而这样的数据集既罕见又难以安全共享。本文介绍了PETWB-REP——一个新的公开全身癌症扫描与对应医生报告的集合,旨在加速更好的诊断工具开发并推动更精确的全球研究。

一扇通向全身的窗口
PETWB-REP项目聚焦于一种名为FDG PET/CT的检查,它将身体的两种视图结合在一起。CT部分展示了详细的解剖结构,如骨骼和器官,而PET部分则显示出高糖代谢的区域,这常常是活动性肿瘤的信号。通过融合这些图像,医生不仅能看到肿瘤的位置,还能评估其活性。该新数据集收集了490例不同肿瘤患者的全身扫描,涵盖肺、肝、乳腺、前列腺、卵巢等多种癌症,范围远比许多早期只聚焦单一肿瘤类型的集合更广泛。
从临床就诊到研究就绪的数据
所有扫描均来自上海一家大型影像中心,于2021至2024年在常规诊疗过程中采集,并在伦理委员会监督下进行。患者在检查前禁食,接受精确计量的放射性糖剂注射,然后静息以便示踪剂在体内分布。每次扫描从颅底至大腿中部,遵循标准化方案以便不同患者间图像可比。除了影像本身,团队还记录了年龄、性别、癌症类型以及扫描执行细节等基本信息,并以一致的结构存储所有内容,便于共享医学图像。
在保护隐私的同时保留细节
将临床扫描转化为安全的公共资源需要一个谨慎的流程,以去除个人信息同时保留医学上有用的细节。研究者首先从影像文件中抹去姓名、身份证号等标识信息,并以研究编码替代。随后使用专门工具对CT图像进行数字化面部去识别处理,使患者无法被识别,同时保留颈部和躯体解剖以供分析。两名研究人员对扫描影像和文本进行了人工复核,确保不留可识别信息。最终得到的一组图像与报告保留了肿瘤分布和器官结构,但不再揭示患者身份。
连接影像与文字
PETWB-REP的一个显著特点是每例扫描都配有经验丰富的核医学医生撰写的完整影像报告。这些报告描述了医生在身体不同区域观察到的情况,记录可疑病灶的大小和表现,并给出总体印象。为向全球用户开放数据集,原始中文报告先经机器翻译为英文,再由双语专家仔细校正,最终以中英并列的形式发布。这种图像与叙述的丰富配对,使数据集非常适合用于训练能够将影像模式与医生描述和解读相连的计算系统。

研究者如何使用该资源
最终数据集分为“原始”扫描和更便于计算处理的处理版本。团队将数据转换为广泛使用的研究格式,调整图像亮度和对比度,对齐PET与CT视图,并创建了汇总每例情况的主表。他们还进行了质量检查,确保每位患者都有匹配的扫描和报告且图像不存在重大缺陷。有了这些基础,研究人员可以构建和测试自动发现与勾勒肿瘤的工具,将图像与文本信息结合以预测结局,或从扫描生成报告草稿。尽管数据来自单一中心且癌种构成反映当地的临床实践,但PETWB-REP的规模、多样性和细致准备使其成为医学与人工智能研究的宝贵新起点。
引用: Xue, L., Feng, G., Zhang, W. et al. PETWB-REP: A Multi-Cancer Whole-Body FDG PET/CT Dataset with Corresponding Radiology Reports. Sci Data 13, 675 (2026). https://doi.org/10.1038/s41597-026-07058-w
关键词: PET/CT成像, 多癌种数据集, 放射科报告, 医学人工智能, 多模态成像