Clear Sky Science · pt
GPT-4o para Determinação Automatizada de Exames de Seguimento com Base em Laudos de Radiologia da Rotina Clínica
Por que Exames de Seguimento Mais Inteligentes Importam
Quando um paciente realiza uma tomografia computadorizada (TC) ou ressonância magnética (RM), a história não termina com as imagens. Os radiologistas também devem decidir se e quando são necessários exames de seguimento para acompanhar tumores, investigar focos suspeitos ou confirmar que o tratamento está funcionando. Essas escolhas podem significar a diferença entre detectar a doença precocemente e expor pacientes a radiação, custos e ansiedade desnecessários. Este estudo fez uma pergunta atual: um sistema moderno de inteligência artificial, o GPT-4o, pode ajudar a padronizar essas decisões de seguimento para que os pacientes recebam cuidados consistentes e baseados em diretrizes?

O Problema das Mensagens Conflitantes
Sociedades profissionais publicam recomendações detalhadas sobre quando e como repetir exames de imagem para muitos cânceres e achados incidentais. Ainda assim, na prática diária, os radiologistas frequentemente discordam sobre o seguimento. Alguns são rápidos em solicitar exames repetidos; outros são mais cautelosos. Pesquisas anteriores mostraram que a probabilidade de recomendar novas imagens pode variar quase sete vezes entre radiologistas avaliando casos semelhantes. Muitos planos sugeridos não correspondem completamente às diretrizes publicadas, levando alguns pacientes a fazer mais exames do que o necessário, enquanto outros podem perder verificações oportunas. Esse cenário irregular motiva ferramentas que possam orientar, de forma sutil, a prática rumo a decisões mais consistentes e baseadas em evidências.
Como o Estudo Foi Conduzido
Os pesquisadores testaram o GPT-4o, um grande modelo de linguagem projetado para compreender e gerar texto, em 100 casos reais de radiologia de dois hospitais alemães. Todos os casos envolveram adultos submetidos a TC ou RM por questões relacionadas ao câncer em quatro regiões principais: cabeça e pescoço, fígado, pulmão e pâncreas. Para cada caso, o modelo recebeu o relatório completo por escrito, incluindo história clínica, achados do exame e a conclusão do radiologista. Foi dada ao GPT-4o uma tarefa: com base nessas informações, propor o método exato de imagem de seguimento (como TC ou RM) e o momento do próximo exame. Um médico residente em radiologia e um radiologista experiente e certificado responderam à mesma pergunta para cada caso.
Avaliando a Qualidade em Relação às Diretrizes
Para julgar essas recomendações, dois radiologistas seniores, que não sabiam quem havia fornecido cada sugestão, compararam todas as respostas com diretrizes internacionais relevantes de sociedades de câncer e radiologia. Eles avaliaram cada proposta em quatro aspectos: se todos os achados relevantes que necessitavam de seguimento foram abordados, se a técnica de imagem escolhida era apropriada, quão precisa era a recomendação de tempo e uma pontuação de qualidade global numa escala de cinco pontos. Na prática, os especialistas perguntavam: este plano mantém o paciente seguro, segue as regras e evita exames desnecessários?

Como a IA se Comparou com Humanos
Em todos os 100 casos, a qualidade global de seguimento do GPT-4o igualou a do radiologista experiente e superou a do residente. A pontuação global mediana do modelo foi 4 de 5, essencialmente a mesma do especialista e significativamente superior à do trainee. O GPT-4o acertou o momento completamente ou parcialmente em 96% dos casos, superando o residente (75%) e superando ligeiramente o especialista (90%). Também cometeu o menor número de erros de temporização potencialmente prejudiciais. O modelo abordou todos os achados que precisavam de seguimento em 92% dos casos, semelhante ao residente e claramente melhor que o especialista nessa medida específica. Na escolha do tipo correto de exame, o GPT-4o teve desempenho quase equivalente ao dos dois leitores humanos. Seus pontos fortes foram imagens de pulmão, fígado e pâncreas, onde os percursos baseados em diretrizes são especialmente padronizados; o desempenho foi um pouco menor, para todos os leitores, na região mais complexa de cabeça e pescoço.
O Que Isso Pode Significar para o Cuidado Futuro
O estudo sugere que o GPT-4o pode atuar como um assistente confiável nas decisões de exames de seguimento, trabalhando em nível aproximado ao de um radiologista experiente e melhor que um trainee em muitos aspectos. Utilizado como ferramenta de suporte à decisão em vez de substituto, tal sistema poderia ajudar a reduzir exames desnecessários, diminuir atrasos em seguimentos essenciais e aliviar a carga de trabalho em departamentos de radiologia sobrecarregados, mantendo a prática mais alinhada às diretrizes estabelecidas. No entanto, os autores enfatizam que especialistas humanos devem permanecer no comando: o modelo ainda pode interpretar mal relatórios, seu funcionamento interno é opaco e o estudo envolveu apenas 100 casos relacionados a câncer de dois centros. Ensaios prospectivos maiores e implantações seguras e hospedadas localmente serão necessários antes que tais ferramentas possam ser integradas com segurança aos fluxos de trabalho clínicos cotidianos.
Citação: Kaya, K., Müller, L., Persigehl, T. et al. GPT-4o for Automated Determination of Follow-up Examinations Based on Radiology Reports from Clinical Routine. Sci Rep 16, 12587 (2026). https://doi.org/10.1038/s41598-026-40317-9
Palavras-chave: seguimento radiológico, grandes modelos de linguagem, suporte à decisão médica, imagem oncológica, GPT-4o