Clear Sky Science · pt

Um conjunto de dados abrangente da coorte europeia de câncer colorretal

· Voltar ao índice

Por que um pool compartilhado de dados sobre câncer importa

O câncer colorretal é um dos tipos de câncer mais letais do mundo, mas os médicos ainda têm dificuldade em prever quais pacientes terão bom prognóstico e quem precisa de tratamento adicional. Este artigo descreve um grande esforço europeu para reunir informações detalhadas de mais de dez mil pacientes em um único recurso cuidadosamente verificado. Ao harmonizar prontuários hospitalares, amostras de tecido, imagens microscópicas e dados de DNA de vários países, o projeto cria uma base poderosa para diagnóstico mais precoce, terapias mais inteligentes e novas ferramentas auxiliadas por computador para o tratamento do câncer.

Um esforço paneuropeu contra um câncer comum

O câncer colorretal se desenvolve lentamente, muitas vezes ao longo de anos, o que o torna um alvo ideal para rastreamento e prevenção. Os testes atuais variam desde checagens simples baseadas em fezes até procedimentos mais invasivos, como a endoscopia, e os médicos também analisam alterações genéticas e outros “biomarcadores” para orientar o tratamento. Ainda assim, apenas alguns biomarcadores estão firmemente estabelecidos nas clínicas, e muitas perguntas permanecem em aberto, como qual a melhor forma de tratar pacientes em estágios intermediários da doença. Para enfrentar essas lacunas, a Infraestrutura de Pesquisa de Biobancos e Recursos Biomoleculares (BBMRI-ERIC) coordenou 26 biobancos em 12 países europeus para construir uma coorte compartilhada de câncer colorretal com 10.780 pacientes, todos com informações essenciais padronizadas e amostras biológicas vinculadas.

Figure 1
Figure 1.

O que exatamente há na coorte?

A coorte captura um quadro rico da jornada de cada paciente. Inclui idade, sexo, detalhes do diagnóstico, fatores de risco, tratamentos recebidos e sobrevida em longo prazo, com foco em pacientes acompanhados por pelo menos cinco anos. Armazena informações sobre a aparência do tumor ao microscópio, estágio da doença e características moleculares-chave, como certas mutações gênicas e problemas de reparo do DNA. Além desses detalhes clínicos, o conjunto de dados vincula-se a amostras de tecido preservadas em biobancos hospitalares, a mais de três mil lâminas digitais de alta resolução de tumores de cólon e a dados de sequenciamento do genoma inteiro de centenas de pacientes. Essas camadas, em conjunto, possibilitam conectar o que os patologistas observam, o que o DNA revela e como os pacientes realmente evoluem ao longo do tempo.

Transformando registros fragmentados em um recurso coerente

Construir um recurso desse tipo esteve longe de ser simples. Cada biobanco originalmente armazenava informações em seus próprios formatos, frequentemente como planilhas simples, e seguia regras e padrões técnicos locais diferentes. As equipes do projeto desenharam um modelo de dados comum por meio de discussões repetidas entre médicos, patologistas, especialistas em TI e funcionários dos biobancos, concordando sobre quais informações eram essenciais e como deveriam ser definidas. Em seguida, criaram ferramentas de software para converter as diversas tabelas locais em um único formato estruturado e para mapear os dados para padrões amplamente usados na área da saúde. Ao expressar a mesma informação em formatos como openEHR, OMOP e FHIR, a coorte torna-se compreensível para muitos sistemas hospitalares e plataformas de pesquisa, aumentando seu alcance e reutilização.

Mantendo os dados precisos, privados e úteis

Como os dados vieram do atendimento rotineiro e de muitas instituições, qualidade e privacidade foram preocupações centrais. Cada registro foi despojado de identificadores pessoais diretos antes da transferência, com cada paciente substituído por um ID codificado que somente o biobanco original pode vincular de volta a uma pessoa. Verificações automatizadas testam se datas, idades, estágios tumorais e tratamentos são plausíveis e consistentes; entradas suspeitas, como uma cirurgia ocorrendo após a data de óbito informada, acionam retorno ao biobanco contribuinte para correção. O artigo também descreve um procedimento estruturado de acesso: pesquisadores de qualquer lugar do mundo podem solicitar o uso da coorte, mas um comitê dedicado avalia cada pedido quanto à aprovação ética, minimização de dados e alinhamento com o propósito da coorte. Os biobancos mantêm o direito de objetar se o compartilhamento conflitar com regras legais locais ou termos de consentimento.

Figure 2
Figure 2.

Como os pesquisadores podem usar isso

Os autores conectaram o conjunto de dados a ferramentas de análise modernas para que usuários aprovados possam explorá‑lo com segurança. Um portal web especializado permite a visualização combinada de dados clínicos, alterações genéticas e imagens de patologia digital, apoiando estudos que vão desde a busca por novos biomarcadores até o treinamento de sistemas de inteligência artificial para reconhecer padrões tumorais. Sistemas de transferência segura e criptografia protegem os dados quando são movidos para os ambientes computacionais dos pesquisadores. A equipe também incentiva os pesquisadores a devolverem resultados derivados, como novos escores de risco ou métodos de anonimização, para que a coorte ganhe valor contínuo.

O que isso significa para pacientes e para a medicina

Para leitores leigos, a mensagem principal é que este projeto criou uma “biblioteca de referência” compartilhada e de alta qualidade de casos reais de câncer colorretal em toda a Europa. Em vez de cada hospital trabalhar com conjuntos de dados pequenos e isolados, os cientistas agora podem estudar padrões em milhares de pacientes, checar achados contra populações diversas e testar novas ferramentas diagnósticas de forma robusta. Embora a coorte em si não entregue um único novo teste ou medicamento, ela estabelece as bases para detecção mais precoce, tratamentos mais personalizados e melhor uso de inteligência artificial na patologia. Em termos práticos, esse tipo de compartilhamento de dados cuidadosamente governado pode acelerar descobertas que um dia ajudem os médicos a decidir quem realmente precisa de quimioterapia, quem pode evitá‑la com segurança e como identificar tumores perigosos antes que se espalhem.

Citação: Holub, P., Törnwall, O., Garcia Alvarez, E. et al. A comprehensive European Colorectal Cancer Cohort dataset. Sci Data 13, 662 (2026). https://doi.org/10.1038/s41597-026-06822-2

Palavras-chave: câncer colorretal, dados de biobanco, patologia digital, coorte genômica, compartilhamento de dados médicos