Clear Sky Science · pt
PETWB-REP: Um conjunto de dados FDG PET/CT de corpo inteiro para múltiplos cânceres com relatórios de radiologia correspondentes
Por que esse novo recurso de imagem do câncer é importante
Médicos que tratam câncer confiam cada vez mais em exames avançados e em ferramentas computacionais para entender como os tumores se comportam por todo o corpo. Mas sistemas poderosos de inteligência artificial precisam de coleções enormes e cuidadosamente organizadas de exames reais de pacientes para aprender, e esses conjuntos são surpreendentemente raros e difíceis de compartilhar com segurança. Este artigo apresenta o PETWB-REP, uma nova coleção pública de exames de corpo inteiro para câncer com relatórios médicos correspondentes, que tem o objetivo de acelerar o desenvolvimento de ferramentas de diagnóstico melhores e pesquisas mais precisas em todo o mundo.

Uma janela para o corpo inteiro
O projeto PETWB-REP centra-se em um tipo de exame chamado FDG PET/CT, que combina duas visões do corpo ao mesmo tempo. A parte de CT mostra a anatomia em detalhe, como ossos e órgãos, enquanto a parte de PET ilumina áreas que estão consumindo muita glicose, muitas vezes um sinal de câncer ativo. Ao fundir essas imagens, os médicos conseguem ver não apenas onde os tumores estão, mas o quão ativos eles são. O novo conjunto de dados reúne exames de corpo inteiro de 490 pessoas com diversos tipos de câncer, incluindo pulmão, fígado, mama, próstata, ovário e outros, tornando-o muito mais amplo do que muitas coleções anteriores que se concentravam em um único tipo tumoral.
Da consulta clínica aos dados prontos para pesquisa
Todos os exames foram coletados em um grande centro de imagem em Xangai entre 2021 e 2024 durante cuidados de rotina, sob a supervisão de um comitê de ética. Os pacientes fizeram jejum antes dos exames, receberam uma injeção cuidadosamente medida de uma substância radioativa marcada, e então repousaram para permitir que o traçador se distribuísse pelo corpo. Cada exame cobriu o corpo da base do crânio até a metade das coxas, seguindo um protocolo padronizado para que as imagens pudessem ser comparadas entre os pacientes. Além das próprias imagens, a equipe registrou informações básicas como idade, sexo, tipo de câncer e detalhes de como os exames foram realizados, e armazenou tudo em uma estrutura consistente projetada para compartilhamento de imagens médicas.
Protegendo a privacidade sem perder detalhes
Transformar exames clínicos em um recurso público seguro exigiu um processo cuidadoso de remoção de informações pessoais ao mesmo tempo em que se preservavam detalhes úteis do ponto de vista médico. Os pesquisadores primeiro apagaram nomes, identificadores e outros dados pessoais dos arquivos de imagem e os substituíram por códigos de estudo. Em seguida, usaram uma ferramenta especializada para remover digitalmente características faciais das imagens de CT, de modo que os pacientes não pudessem ser identificados, preservando porém a anatomia do pescoço e do corpo para análise. Dois pesquisadores revisaram manualmente os exames e os textos para garantir que nada identificável permanecesse. O resultado é um conjunto de imagens e relatórios que preservam padrões tumorais e a estrutura dos órgãos, mas que não revelam quem são os pacientes.
Ligando imagens e palavras
Uma característica distintiva do PETWB-REP é que cada exame vem acompanhado de um relatório de radiologia completo, redigido por médicos experientes em medicina nuclear. Esses relatórios descrevem o que os médicos observaram em diferentes regiões do corpo, registram o tamanho e o comportamento de focos suspeitos e terminam com uma impressão geral. Para abrir o conjunto de dados a um público global, os relatórios originais em chinês foram traduzidos para o inglês usando tradução automática e então cuidadosamente corrigidos por um especialista bilíngue, com ambas as línguas disponibilizadas lado a lado. Esse pareamento rico de imagens e narrativa torna o conjunto de dados ideal para treinar sistemas computacionais capazes de relacionar padrões nas imagens com a maneira como os médicos os descrevem e interpretam.

Como pesquisadores podem usar esse recurso
O conjunto final de dados está organizado em exames “brutos” e versões processadas que são mais fáceis de manipular por computadores. A equipe converteu os dados para um formato de pesquisa amplamente usado, ajustou brilho e contraste das imagens, alinhou as visões de PET e CT e criou uma tabela mestre resumindo cada caso. Também realizaram verificações de qualidade para garantir que cada paciente tenha exames e relatórios correspondentes e que as imagens estejam livres de falhas importantes. Com essa base, pesquisadores podem construir e testar ferramentas para localizar e delimitar automaticamente tumores, combinar informações de imagem e texto para prever desfechos, ou gerar rascunhos de relatórios a partir dos exames. Embora os dados provenham de um único centro e a mistura de cânceres reflita a prática local, o tamanho, a variedade e a preparação cuidadosa do PETWB-REP fazem dele um ponto de partida valioso para estudos médicos e de inteligência artificial.
Citação: Xue, L., Feng, G., Zhang, W. et al. PETWB-REP: A Multi-Cancer Whole-Body FDG PET/CT Dataset with Corresponding Radiology Reports. Sci Data 13, 675 (2026). https://doi.org/10.1038/s41597-026-07058-w
Palavras-chave: imagem PET/CT, conjunto de dados multicâncer, relatórios de radiologia, IA médica, imagem multimodal