Clear Sky Science · ru
PETWB-REP: Набор данных ПЭТ/КТ всего тела для нескольких видов рака с соответствующими радиологическими отчётами
Почему этот новый ресурс по визуализации рака важен
Онкологи всё больше полагаются на продвинутые сканы и компьютерные инструменты, чтобы наблюдать поведение опухолей по всему телу. Но мощные системы искусственного интеллекта нуждаются в больших, тщательно организованных коллекциях реальных клинических снимков для обучения, а такие наборы данных по‑настоящему редки и их сложно безопасно распространять. В этой статье представлен PETWB-REP — новая публичная коллекция сканов всего тела при раке с сопоставимыми врачебными отчётами, призванная ускорить разработку лучших диагностических инструментов и более точные исследования во всём мире.

Окно в изображение всего тела
Проект PETWB-REP сосредоточен на типе исследования, называемом FDG PET/CT, которое объединяет два вида изображения тела одновременно. Часть КТ показывает детальную анатомию — кости и органы, тогда как ПЭТ подсвечивает области с повышенным потреблением глюкозы, часто свидетельствующие об активном раке. Слияние этих изображений позволяет врачам видеть не только локализацию опухолей, но и их биологическую активность. Новый набор данных собирает сканы всего тела у 490 человек с различными видами рака, включая рак лёгких, печени, молочной железы, предстательной железы, яичников и другие, что делает его гораздо более широким по охвату по сравнению с ранними коллекциями, ориентированными на один тип опухоли.
От визита в клинику до данных, готовых к исследованиям
Все сканы были собраны в крупном центре визуализации в Шанхае в период с 2021 по 2024 год в рамках рутинного ухода и под надзором этического комитета. Пациенты голодали перед исследованием, получили точно дозированный ввод радиоактивного сахарного трейсера и затем отдыхали, чтобы метка равномерно распределилась по организму. Каждое исследование охватывало область от основания черепа до середины бедра по стандартизированному протоколу, чтобы изображения можно было сравнивать между пациентами. Помимо самих изображений команда зафиксировала базовые данные — возраст, пол, тип рака и детали выполнения исследования — и сохранила всё в единообразной структуре, предназначенной для обмена медицинскими изображениями.
Защита конфиденциальности при сохранении деталей
Преобразование клинических сканов в безопасный публичный ресурс потребовало тщательной процедуры удаления персональной информации при одновременном сохранении клинически значимых деталей. Исследователи сначала стерли имена, идентификаторы и другие метаданные из файлов изображений и заменили их кодами исследования. Затем применили специализированный инструмент для цифрового удаления черт лица на КТ‑изображениях, чтобы пациенты не могли быть опознаны, при этом шея и внутренняя анатомия тела остались нетронутыми для анализа. Два исследователя вручную проверили сканы и тексты, чтобы убедиться, что ничего идентифицирующего не осталось. В результате получен набор изображений и отчётов, сохраняющий модель расположения опухолей и структуру органов, но уже не раскрывающий личности пациентов.
Соединяя изображения и текст
Отличительной особенностью PETWB-REP является то, что к каждому скану прилагается полный радиологический отчёт, написанный опытными специалистами в области радионуклидной медицины. Эти отчёты описывают наблюдения по отдельным областям тела, отмечают размер и поведение подозрительных участков и завершаются общей интерпретацией. Чтобы открыть набор данных международной аудитории, оригинальные китайские отчёты были переведены на английский с помощью машинного перевода и затем тщательно скорректированы билингвальным специалистом; оба языка опубликованы рядом. Такое богатое сочетание изображений и описаний делает набор данных идеальным для обучения систем, способных связывать визуальные паттерны с тем, как врачи описывают и интерпретируют находки.

Как исследователи могут использовать этот ресурс
Окончательный набор данных организован в виде «сырых» сканов и обработанных версий, удобных для компьютерной обработки. Команда преобразовала данные в широко используемый исследовательский формат, откорректировала яркость и контраст изображений, выровняла ПЭТ и КТ‑слои и создала сводную таблицу, описывающую каждый случай. Также были проведены проверки качества, чтобы гарантировать, что у каждого пациента имеются соответствующие сканы и отчёты и что изображения не содержат серьёзных артефактов. На этой базе исследователи могут разрабатывать и тестировать инструменты для автоматического обнаружения и контурирования опухолей, объединять информацию из изображений и текста для прогноза исходов или генерировать черновые отчёты по сканам. Хотя данные получены в одном центре и соотношение видов рака отражает локальную практику, объём, разнообразие и тщательная подготовка PETWB-REP делают его ценным начальным ресурсом для медицинских исследований и задач искусственного интеллекта.
Цитирование: Xue, L., Feng, G., Zhang, W. et al. PETWB-REP: A Multi-Cancer Whole-Body FDG PET/CT Dataset with Corresponding Radiology Reports. Sci Data 13, 675 (2026). https://doi.org/10.1038/s41597-026-07058-w
Ключевые слова: ПЭТ/КТ визуализация, набор данных для нескольких видов рака, радиологические отчёты, медицинский ИИ, мультимодальная визуализация