Clear Sky Science · pt

Uma análise comparativa de modelos orientados por dados para previsão de sobrevivência no câncer de mama

· Voltar ao índice

Por que este estudo importa para a saúde das mulheres

O câncer de mama é hoje o tipo de câncer mais diagnosticado entre mulheres no mundo, e em países com menos recursos médicos ele frequentemente é detectado tardiamente e tratado em condições difíceis. Este estudo foca em mulheres na Etiópia e faz uma pergunta que pode ser questão de vida ou morte: com as informações que os médicos já coletam sobre uma paciente, ferramentas modernas de dados podem prever com mais precisão quem tem maior risco de morrer por câncer de mama? Previsões melhores poderiam ajudar médicos a priorizar tratamentos limitados, agendar acompanhamento mais próximo para as pacientes mais vulneráveis e oferecer às mulheres informações mais claras sobre seu prognóstico.

Mulheres, hospitais e prontuários do dia a dia

Os pesquisadores analisaram prontuários médicos de 1.164 mulheres tratadas por câncer de mama entre 2019 e 2024 em dois hospitais importantes da Etiópia. Para cada mulher, acompanharam quanto tempo viveu após o diagnóstico e se morreu durante o período de seguimento ou estava viva quando a coleta de dados foi encerrada. Além desse desfecho, utilizaram informações clínicas e sociodemográficas comuns que os hospitais registram rotineiramente: idade, tamanho do tumor, estágio do câncer, se o câncer havia se espalhado para órgãos distantes (metástase) ou linfonodos, presença de outras doenças, estado civil, hábitos de vida como tabagismo ou uso de khat, e se a mulher havia amamentado. São todos detalhes que podem ser obtidos sem exames caros, tornando quaisquer ferramentas preditivas resultantes realistas para cenários com poucos recursos.

Figure 1
Figure 1.

Maneiras antigas e novas de interpretar chances de sobrevivência

Tradicionalmente, médicos e estatísticos usam métodos de análise de sobrevivência como curvas de Kaplan–Meier e o modelo de riscos proporcionais de Cox para entender quanto tempo pacientes vivem com uma doença e quais fatores influenciam esse tempo. Esses métodos são relativamente fáceis de interpretar, mas têm dificuldades quando muitos fatores interagem de maneiras complexas e não lineares, como costuma ocorrer na prática clínica oncológica. Os autores compararam essas abordagens clássicas com modelos mais flexíveis de aprendizado de máquina, incluindo random survival forests e modelos de sobrevivência baseados em deep learning, assim como ferramentas de classificação padrão como máquinas de vetores de suporte, random forests, XGBoost e LightGBM. Todos os modelos foram treinados em parte dos dados e testados em casos não vistos, e seu desempenho foi avaliado com medidas que capturam tanto o quão bem conseguem ranquear pacientes por risco quanto quão bem os tempos de sobrevivência previstos se ajustam à realidade.

Quais fatores mais influenciam a sobrevivência?

Ao longo do grupo inteiro, vários padrões emergiram mesmo antes de aplicar modelos avançados. Mulheres com tumores maiores, com mais linfonodos comprometidos ou com câncer que já havia se espalhado apresentaram sobrevivência muito pior. Aqueles diagnosticados no estágio IV foram especialmente propensos a morrer durante o seguimento, enquanto mulheres com doença no estágio I tiveram desfechos bem melhores. Idade mais avançada, particularmente 45 anos ou mais, e a presença de outras doenças crônicas também pioraram a sobrevivência. Hábitos de vida como fumar, consumir álcool ou usar khat foram associados a desfechos piores. Mulheres casadas tenderam a viver mais do que mulheres solteiras, divorciadas ou viúvas, ecoando achados de outros países de que o apoio social pode melhorar a sobrevivência ao câncer ao ajudar as pacientes a manterem o seguimento do tratamento.

Figure 2
Figure 2.

O que algoritmos inteligentes acrescentaram ao quadro

Quando a equipe comparou os modelos, os random survival forests — um método que cresce muitas árvores de decisão focadas em sobrevivência e combina seus resultados — forneceram as previsões mais precisas de quanto tempo as pacientes viveriam. Um método intimamente relacionado, random forests usado como classificador, foi o melhor em distinguir mulheres de maior risco das de menor risco. Para evitar o problema da “caixa preta”, os pesquisadores usaram uma técnica chamada SHAP para ver em quais fatores os modelos mais se basearam. Nos modelos mais fortes, as mesmas características se destacaram: idade, tamanho do tumor, metástase, envolvimento de linfonodos, estágio geral e presença de outras doenças. Características sociais como estado civil e certos hábitos também contribuíram, mas em menor grau. Na prática, os modelos aprenderam e quantificaram os mesmos sinais de risco principais que preocupam os clínicos, ao mesmo tempo em que ponderaram como eles se combinam de maneiras sutis.

O que isso significa para pacientes e clínicas

O estudo conclui que, para mulheres etíopes com câncer de mama, modelos de sobrevivência orientados por dados e ajustados para previsão de tempo até a morte — especialmente os random survival forests — podem fornecer estimativas de risco mais precisas e ainda interpretáveis do que os métodos tradicionais isoladamente. Como esses modelos usam informações já coletadas na prática rotineira, eles poderiam ser incorporados em ferramentas simples que sinalizam pacientes de alto risco, ajudam médicos a decidir quem precisa de encaminhamento mais rápido ou tratamento mais intensivo e orientam conversas francas, porém personalizadas, sobre prognóstico. Embora o trabalho tenha limitações — faltaram dados genéticos e de imagem e baseou‑se em registros retrospectivos — ele mostra que o uso cuidadoso de aprendizado de máquina pode transformar dados hospitalares comuns em apoio prático ao cuidado do câncer em contextos com recursos limitados.

Citação: Takele, K., Chen, DG. A comparative analysis of data-driven models for breast cancer survival prediction. Sci Rep 16, 10114 (2026). https://doi.org/10.1038/s41598-026-40565-9

Palavras-chave: sobrevivência ao câncer de mama, aprendizado de máquina, random survival forest, Etiópia, fatores de risco clínicos