Clear Sky Science · pl
PETWB-REP: Wielochorobowy zestaw danych całego ciała PET/CT z odpowiadającymi raportami radiologicznymi
Dlaczego to nowe źródło obrazowania raka ma znaczenie
Lekarze onkolodzy coraz częściej polegają na zaawansowanych badaniach obrazowych i narzędziach komputerowych, by zrozumieć zachowanie nowotworów w całym ciele. Jednak potężne systemy sztucznej inteligencji potrzebują ogromnych, starannie uporządkowanych zbiorów rzeczywistych badań pacjentów do nauki, a takie zbiory są zaskakująco rzadkie i trudne do bezpiecznego udostępniania. Niniejszy artykuł przedstawia PETWB-REP, nowy publiczny zbiór całotelesowych badań onkologicznych wraz z odpowiadającymi raportami lekarskimi, który ma przyspieszyć rozwój lepszych narzędzi diagnostycznych i bardziej precyzyjnych badań na całym świecie.

Okno na całe ciało
Projekt PETWB-REP skupia się na badaniu zwanym FDG PET/CT, które łączy dwa spojrzenia na ciało jednocześnie. Część CT pokazuje szczegółową anatomię, taką jak kości i narządy, podczas gdy część PET uwidacznia obszary zużywające dużo cukru, co często wskazuje na aktywność nowotworową. Poprzez łączenie tych obrazów lekarze mogą zobaczyć nie tylko lokalizację guzów, lecz także ich aktywność. Nowy zbiór gromadzi całotelesowe badania od 490 pacjentów z wieloma różnymi nowotworami, w tym płuca, wątroba, pierś, prostata, jajniki i inne, co czyni go znacznie szerszym niż wiele wcześniejszych kolekcji skupionych na jednym typie guza.
Od wizyty w klinice do danych gotowych do badań
Wszystkie badania zostały zebrane w dużym ośrodku obrazowania w Szanghaju w latach 2021–2024 podczas rutynowej opieki, pod nadzorem komisji etycznej. Pacjenci przestrzegali postu przed badaniem, otrzymali dokładnie odmierzoną iniekcję radioaktywnego cukru, a następnie odpoczywali, aby znacznik rozprowadził się po ciele. Każde badanie obejmowało obszar od podstawy czaszki do środkowej części uda, zgodnie ze standardowym protokołem, tak aby obrazy były porównywalne między pacjentami. Oprócz samych obrazów zespół zarejestrował podstawowe informacje, takie jak wiek, płeć, rodzaj nowotworu oraz szczegóły dotyczące wykonania badań, i przechował wszystko w spójnej strukturze zaprojektowanej do udostępniania obrazów medycznych.
Ochrona prywatności przy zachowaniu szczegółów
Przekształcenie badań klinicznych w bezpieczne zasoby publiczne wymagało starannego procesu usuwania danych osobowych przy jednoczesnym zachowaniu przydatnych medycznie szczegółów. Badacze najpierw wykasowali imiona, identyfikatory i inne dane osobowe z plików obrazowych, zastępując je kodami badania. Następnie użyto wyspecjalizowanego narzędzia do cyfrowego usunięcia cech twarzy z obrazów CT, tak aby pacjenci nie mogli zostać rozpoznani, jednocześnie pozostawiając anatomię szyi i tułowia nietkniętą do analiz. Dwóch badaczy ręcznie sprawdziło obrazy i teksty, by upewnić się, że nie pozostały żadne informacje identyfikujące. Efektem jest zbiór obrazów i raportów, który zachowuje wzorce guzów i strukturę narządów, ale nie ujawnia już tożsamości pacjentów.
Łączenie obrazów i słów
Jedną z wyróżniających cech PETWB-REP jest fakt, że do każdego badania dołączony jest pełny raport radiologiczny napisany przez doświadczonych lekarzy medycyny nuklearnej. Raporty te opisują obserwacje w różnych rejonach ciała, odnotowują wielkość i zachowanie podejrzanych ognisk oraz kończą się ogólną opinią. Aby otworzyć zbiór dla międzynarodowej publiczności, oryginalne raporty w języku chińskim zostały przetłumaczone na angielski za pomocą tłumaczenia automatycznego, a następnie starannie poprawione przez dwujęzycznego specjalistę; obie wersje językowe udostępniono obok siebie. To bogate połączenie obrazów i narracji czyni zbiór idealnym do trenowania systemów komputerowych, które potrafią powiązać wzorce na obrazach z opisami i interpretacjami lekarzy.

Jak badacze mogą korzystać z tego zasobu
Końcowy zestaw danych jest zorganizowany na „surowe” skany oraz przetworzone wersje, które są łatwiejsze do przetwarzania przez komputery. Zespół przekonwertował dane do powszechnie stosowanego formatu badawczego, skorygował jasność i kontrast obrazów, wyrównał widoki PET i CT oraz stworzył główną tabelę podsumowującą każdy przypadek. Przeprowadzono także kontrole jakości, aby upewnić się, że każdy pacjent ma dopasowane badania i raporty oraz że obrazy są wolne od poważnych wad. Na tej podstawie badacze mogą tworzyć i testować narzędzia do automatycznego wykrywania i obrysowywania guzów, łączyć informacje z obrazów i tekstów w celu przewidywania wyników albo generować szkice raportów na podstawie badań. Chociaż dane pochodzą z jednego ośrodka, a skład nowotworów odzwierciedla lokalne praktyki, rozmiar, różnorodność i staranna obróbka PETWB-REP czynią go wartościowym punktem wyjścia dla badań medycznych i nad sztuczną inteligencją.
Cytowanie: Xue, L., Feng, G., Zhang, W. et al. PETWB-REP: A Multi-Cancer Whole-Body FDG PET/CT Dataset with Corresponding Radiology Reports. Sci Data 13, 675 (2026). https://doi.org/10.1038/s41597-026-07058-w
Słowa kluczowe: obrazowanie PET/CT, zestaw danych wielorakiego raka, raporty radiologiczne, medyczna sztuczna inteligencja, obrazowanie multimodalne