Clear Sky Science · fr

PETWB-REP : un jeu de données FDG PET/CT corps entier multi-cancers avec comptes rendus radiologiques correspondants

· Retour à l’index

Pourquoi cette nouvelle ressource d’imagerie oncologique est importante

Les oncologues s’appuient de plus en plus sur des examens avancés et des outils informatiques pour observer le comportement des tumeurs dans tout le corps. Mais les systèmes d’intelligence artificielle performants nécessitent d’immenses collections soigneusement organisées d’examens réels de patients pour apprendre, et celles-ci restent étonnamment rares et difficiles à partager en toute sécurité. Cet article présente PETWB-REP, une nouvelle collection publique d’examens corps entier et de comptes rendus médicaux appariés, destinée à accélérer le développement d’outils de diagnostic et la recherche plus précise à l’échelle mondiale.

Figure 1
Figure 1.

Une fenêtre sur le corps entier

Le projet PETWB-REP porte sur un type d’examen appelé FDG PET/CT, qui combine deux vues du corps en une seule fois. La partie CT montre l’anatomie détaillée, comme les os et les organes, tandis que la partie PET met en évidence les zones à forte consommation de glucose, souvent le signe d’un cancer actif. En fusionnant ces images, les médecins peuvent voir non seulement où se situent les tumeurs, mais aussi leur activité. Le nouveau jeu de données réunit des examens corps entier de 490 personnes atteintes de divers cancers, notamment du poumon, du foie, du sein, de la prostate, de l’ovaire et d’autres, le rendant beaucoup plus large que de nombreuses collections antérieures axées sur un seul type de tumeur.

De la consultation clinique aux données prêtes pour la recherche

Tous les examens ont été réalisés dans un grand centre d’imagerie de Shanghai entre 2021 et 2024 lors de soins de routine, sous la supervision d’un comité d’éthique. Les patients étaient à jeun avant leurs examens, ont reçu une injection soigneusement dosée d’un traceur radioactif à base de glucose, puis se sont reposés pour permettre au traceur de se répartir dans l’organisme. Chaque examen couvrait le corps de la base du crâne jusqu’au milieu des cuisses, selon un protocole standardisé afin que les images puissent être comparées entre patients. Outre les images elles-mêmes, l’équipe a enregistré des informations de base telles que l’âge, le sexe, le type de cancer et les détails des paramètres d’acquisition, et a stocké l’ensemble dans une structure cohérente conçue pour le partage d’images médicales.

Protéger la vie privée tout en conservant les détails

La transformation des examens cliniques en ressource publique sûre a exigé un processus minutieux d’effacement des informations personnelles tout en préservant les détails utiles médicalement. Les chercheurs ont d’abord supprimé les noms, identifiants et autres éléments d’identification des fichiers d’images et les ont remplacés par des codes d’étude. Ils ont ensuite utilisé un outil spécialisé pour supprimer numériquement les traits du visage sur les images CT afin d’empêcher l’identification des patients, tout en laissant intacte l’anatomie du cou et du corps pour l’analyse. Deux chercheurs ont vérifié manuellement les examens et les textes pour s’assurer qu’aucun élément identifiable ne subsistait. Le résultat est un ensemble d’images et de comptes rendus qui préservent les motifs tumoraux et la structure des organes sans révéler l’identité des patients.

Faire le lien entre images et texte

Une caractéristique distinctive de PETWB-REP est que chaque examen est accompagné d’un compte rendu radiologique complet rédigé par des médecins expérimentés en médecine nucléaire. Ces rapports décrivent ce que les cliniciens ont observé dans différentes régions du corps, notent la taille et le comportement des foyers suspects, et concluent par une impression globale. Pour ouvrir le jeu de données à un public international, les rapports originaux en chinois ont été traduits en anglais par traduction automatique, puis soigneusement corrigés par un spécialiste bilingue, les deux langues étant publiées côte à côte. Cet appariement riche d’images et de textes rend le jeu de données idéal pour entraîner des systèmes informatiques capables de relier des motifs d’images à la façon dont les médecins les décrivent et les interprètent.

Figure 2
Figure 2.

Comment les chercheurs peuvent utiliser cette ressource

Le jeu de données final est organisé en examens « bruts » et en versions traitées, plus faciles à manipuler par les ordinateurs. L’équipe a converti les données dans un format de recherche largement utilisé, ajusté la luminosité et le contraste des images, aligné les vues PET et CT, et créé un tableau maître résumant chaque cas. Ils ont également réalisé des contrôles de qualité pour s’assurer que chaque patient dispose d’examens et de rapports appariés et que les images ne présentent pas de défauts majeurs. Sur cette base, les chercheurs peuvent concevoir et tester des outils pour détecter et délimiter automatiquement les tumeurs, combiner informations d’image et de texte pour prédire des issues, ou générer des brouillons de compte rendus à partir des examens. Bien que les données proviennent d’un seul centre et que la répartition des cancers reflète la pratique locale, la taille, la variété et la préparation soignée de PETWB-REP en font un nouveau point de départ précieux pour les études médicales et en intelligence artificielle.

Citation: Xue, L., Feng, G., Zhang, W. et al. PETWB-REP: A Multi-Cancer Whole-Body FDG PET/CT Dataset with Corresponding Radiology Reports. Sci Data 13, 675 (2026). https://doi.org/10.1038/s41597-026-07058-w

Mots-clés: imagerie PET/CT, jeu de données multi-cancers, comptes rendus radiologiques, IA médicale, imagerie multimodale