Clear Sky Science · fr
Un jeu de données CT avec mesures RECIST et masques de segmentation complets pour tumeurs et ganglions lymphatiques
Pourquoi cette ressource en imagerie du cancer est importante
La prise en charge du cancer repose de plus en plus sur l’imagerie médicale pour déterminer si les traitements sont efficaces. Pourtant, les mesures précises réalisées coupe par coupe par les médecins sur les scanners CT prennent du temps et peuvent varier d’un expert à l’autre. Cet article présente une nouvelle collection de scanners CT de patients cancéreux, disponible en accès libre, avec les tumeurs et les ganglions lymphatiques soigneusement délimités et mesurés selon un protocole clinique largement utilisé. Elle vise à aider les chercheurs à concevoir et évaluer des programmes informatiques susceptibles, à terme, de prendre en charge une grande partie de ce travail fastidieux et d’accélérer et uniformiser le suivi des traitements contre le cancer à l’échelle mondiale.
Comment les médecins suivent actuellement les tumeurs
Pour juger si un traitement anticancéreux est efficace, les radiologues utilisent souvent une norme appelée RECIST 1.1. En pratique, cela signifie qu’ils choisissent quelques « tumeurs cibles » sur les scanners CT d’un patient et consignent le diamètre le plus long visible de chacune en millimètres. Au fil du temps, ils comparent la somme de ces diamètres avec les examens antérieurs pour décider si la maladie a régressé, est restée stable ou a progressé. Si cette approche a apporté une nécessaire cohérence aux essais cliniques, elle présente aussi des limites : elle dépend fortement du choix des lésions par le médecin, repose sur des mesures unidimensionnelles plutôt que sur une vraie taille 3D, et nécessite généralement plus de 10 minutes par patient et par évaluation. Avec l’augmentation mondiale des cas de cancer, ces contraintes pèsent sur les services de radiologie.

Ce que contient le nouveau jeu de données CT
Les auteurs ont rassemblé des scanners CT de 22 adultes traités pour divers cancers à l’Hôpital Clinique de l’Université du Chili, incluant cancers du poumon, du foie, colorectal, du sein, de l’ovaire, gastrique, de la vésicule biliaire, de la vessie et mélanome. À partir de 58 séries de scanners thoraciques et abdominaux réalisés entre 2017 et 2023, ils ont identifié chaque tumeur solide ou ganglion lymphatique élargi suffisamment grand pour être mesuré. Au total, ils ont délimité manuellement 1 246 lésions individuelles : 1 148 métastases (tumeurs disséminées), 93 ganglions lymphatiques élargis et 5 tumeurs primitives. Pour 82 de ces lésions, ils ont aussi inclus les mesures RECIST officielles consignées dans les rapports cliniques, permettant une comparaison côte à côte entre la pratique courante et les méthodes automatisées.
Comment experts et IA ont collaboré
Produire de telles délimitations détaillées serait normalement excessivement lent, aussi l’équipe a‑t‑elle adopté une stratégie « humain dans la boucle ». Des radiologues expérimentés et des internes ont tracé des boîtes 3D grossières autour des tumeurs suspectées, et un puissant modèle de segmentation nommé MedSAM a proposé des contours initiaux. Les internes ont ensuite corrigé ces contours, puis des radiologues seniors ont effectué une revue finale. Après chaque lot de scanners terminé, le modèle IA a été réentraîné sur les contours améliorés et utilisé pour assister le lot suivant. À chaque cycle, ses performances se sont rapprochées de ce que des experts humains accepteraient, réduisant l’effort nécessaire aux corrections ultérieures tout en préservant la précision.
Ce que les données révèlent sur les tumeurs
Parce que chaque lésion des scans a été délimitée en trois dimensions, les auteurs ont pu étudier finement leurs volumes et densités. La plupart des tumeurs se situaient dans les poumons et le foie. Les tumeurs pulmonaires avaient tendance à présenter de petits volumes mais souvent des diamètres relativement longs, tandis que les ganglions lymphatiques montraient des volumes plus importants mais des diamètres principaux un peu plus courts que les tumeurs hépatiques. L’équipe a aussi examiné l’intensité de ces régions sur le CT, une propriété liée à la densité tissulaire. Les tumeurs pulmonaires, entourées d’air, présentaient des profils d’intensité très différents des tumeurs hépatiques et des ganglions, ce qui suggère que des caractéristiques numériques simples extraites des images CT pourraient aider à distinguer les types de lésions. Surtout, l’étude confirme une forte corrélation entre le plus long diamètre d’une lésion et son volume 3D réel, soutenant l’idée que des règles basées sur le diamètre, comme RECIST, peuvent servir d’approximation pratique des mesures volumétriques complètes lorsqu’elles sont appliquées avec soin.

Évaluer le jeu de données avec l’apprentissage profond
Pour montrer comment le jeu de données peut être exploité, les chercheurs ont entraîné et affiné deux types de systèmes d’apprentissage profond. D’abord, ils ont adapté MedSAM pour segmenter automatiquement les tumeurs à partir de simples boîtes englobantes, atteignant des scores de recouvrement avec les contours d’experts dans la même plage que ceux rapportés sur des jeux de données internationaux beaucoup plus volumineux. Ensuite, ils ont ajusté un cadre largement utilisé appelé nnUNet, en partant de modèles entraînés sur des défis mondiaux en imagerie pulmonaire et hépatique puis en les affinant sur ces nouvelles données chiliennes. Après affinage, les systèmes ont égalé ou dépassé leurs performances initiales, en particulier pour les tumeurs pulmonaires, bien que la cohorte de patients fût relativement réduite. Cela démontre que des données locales soigneusement annotées peuvent améliorer sensiblement la fiabilité des outils d’IA dans un contexte hospitalier spécifique.
Ce que cela signifie pour les soins du cancer à l’avenir
Pour les non‑spécialistes, le message clé est que ce jeu de données est un outil facilitant la recherche, et non un produit diagnostique en soi. En partageant ouvertement des scanners CT où chaque tumeur visible et chaque ganglion lymphatique ont été délimités et, dans de nombreux cas, mesurés avec précision, les auteurs offrent un terrain d’entraînement réaliste pour des algorithmes visant à automatiser le suivi des tumeurs. De tels outils pourraient permettre aux radiologues de passer moins de temps sur des mesures manuelles et davantage sur des jugements cliniques complexes, tout en réduisant la variabilité entre lecteurs. Étant donné que les données proviennent d’un hôpital d’Amérique latine et sont publiées sous une licence permissive, elles contribuent aussi à tester l’IA médicale sur des populations plus diversifiées, améliorant les chances que la surveillance automatisée du cancer fonctionne de façon fiable pour des patients du monde entier.
Citation: Rojas-Pizarro, R., Vásquez-Venegas, C., Pereira, G. et al. A CT Dataset with RECIST Measurements and Comprehensive Segmentation Masks for Tumors and Lymph Nodes. Sci Data 13, 270 (2026). https://doi.org/10.1038/s41597-026-06597-6
Mots-clés: imagerie du cancer, tomodensitométrie (CT), segmentation des tumeurs, RECIST, jeux de données IA médicales