Clear Sky Science · pt

Uma estrutura híbrida LSTM-GRU para classificação do câncer de pulmão usando o algoritmo GWO-WOA para ajuste de hiperparâmetros e BPSO para seleção de características

2026-02-13 · Voltar ao índice

Por que isso importa para a saúde do dia a dia

Detectar o câncer de pulmão precocemente pode salvar vidas, mas muitas pessoas só fazem exames avançados quando já é tarde demais. Este estudo investiga se check-ups simples baseados em perguntas — sobre idade, tabagismo, sintomas e hábitos diários — podem ser combinados com inteligência artificial moderna para identificar pessoas com alto risco muito antes do aparecimento de doença grave. Ao aproveitar ao máximo questionários baratos e modelos computacionais sofisticados, o trabalho aponta para ferramentas de triagem mais rápidas e acessíveis que, no futuro, poderiam apoiar médicos e programas de saúde pública em todo o mundo.

Transformando perguntas simples em sinais úteis

Os pesquisadores trabalharam com dois conjuntos de dados públicos do site Kaggle, cobrindo juntos mais de 3.300 pessoas. Em vez de imagens médicas, cada registro contém 15 itens que você encontraria em um formulário clínico: idade, sexo, status de tabagismo, dedos amarelados, tosse, falta de ar, dor torácica e fatores de risco e sintomas semelhantes, além de um rótulo indicando se havia câncer de pulmão. Como dados de pesquisa do mundo real são imperfeitos, a equipe primeiro limpou as informações corrigindo entradas ausentes, removendo duplicatas e alinhando como as respostas eram codificadas entre os dois conjuntos de dados. Também ajustaram as escalas numéricas para que todas as características ficassem em patamares semelhantes e usaram um método de balanceamento para corrigir a forte inclinação a favor de casos com câncer no conjunto menor, ajudando o modelo a evitar o viés de prever apenas a classe majoritária.

Deixando o computador escolher as perguntas mais reveladoras

Nem toda pergunta em um formulário é igualmente útil para detectar doença, e usar muitas pode, na verdade, confundir o modelo. Para focar no que mais importa, os autores empregaram uma estratégia de busca inspirada em enxames chamada Otimização por Enxame de Partículas Binária (BPSO). Em termos simples, muitos conjuntos candidatos de “perguntas” são testados em paralelo e se movem no espaço de possibilidades, copiando e aprimorando os melhores desempenhos. Com o tempo, esse processo convergiu para conjuntos compactos de cerca de sete perguntas-chave, destacando repetidamente recursos como tabagismo, dedos amarelados, tosse, dor torácica, chiado, falta de ar e doenças crônicas. Esses conjuntos focados melhoraram a acurácia em vários pontos percentuais em comparação com o uso das 15 perguntas, além de tornar o modelo final mais fácil de interpretar e mais rápido de executar.

Um motor mais inteligente para ler padrões nas respostas

Para transformar as respostas do questionário em uma previsão binária de câncer, a equipe construiu um modelo híbrido que combina duas unidades de aprendizado profundo relacionadas frequentemente usadas para sequências: Long Short-Term Memory (LSTM) e Gated Recurrent Unit (GRU). Embora respostas de pesquisa não sejam séries temporais como fala ou vídeo, grupos de sintomas e hábitos ainda formam padrões que podem ser tratados como sequências curtas. O modelo primeiro passa as perguntas selecionadas por camadas LSTM, que conseguem armazenar e esquecer informações de forma seletiva, e em seguida por camadas GRU, que refinam esses padrões com menos etapas internas e menor custo computacional. Para evitar projetos por tentativa e erro, os autores ajustaram configurações cruciais — como taxa de aprendizado, número de unidades ocultas, tamanho de lote e dropout — usando uma segunda camada de busca inspirada na natureza que mistura a exploração ampla dos “lobos cinzentos” com os ajustes finos das “baleias”. Esse otimizador conjunto procura combinações de hiperparâmetros que gerem consistentemente alta acurácia durante a validação cruzada.

Quão bem o sistema performou

Após o treinamento, o modelo híbrido LSTM–GRU foi testado contra várias linhas de base robustas, incluindo redes LSTM e GRU isoladas, uma rede neural convolucional, máquinas de vetores de suporte tradicionais e métodos baseados em árvores como florestas aleatórias e gradient boosting. No conjunto menor de 309 pessoas, o sistema proposto classificou corretamente todos os casos na divisão de teste reservada, alcançando 100% de acurácia, precisão, recall e F1‑score. No conjunto maior de 3.000 pessoas, manteve‑se quase perfeito, com cerca de 99,3% de acurácia e pontuações igualmente altas nas demais medidas, superando todos os modelos concorrentes de aprendizado profundo e modelos clássicos. Os autores também mostraram que sua estratégia em duas etapas — primeiro selecionando perguntas com a busca por enxame e depois ajustando a rede híbrida com o otimizador lobo‑e‑baleia — forneceu resultados mais estáveis em execuções repetidas de validação cruzada do que configurações mais simples.

O que isso significa para futuras triagens de pulmão

Em termos práticos, este trabalho mostra que um sistema de IA bem projetado pode ler respostas ordinárias de questionários e separar com alta precisão pessoas com e sem câncer de pulmão em conjuntos de dados de referência. Não substitui exames de imagem, médicos ou ensaios clínicos, e os autores ressaltam que seus dados são limitados e ainda não prontos para uso direto em hospitais. Ainda assim, a abordagem demonstra que combinar seleção inteligente de perguntas com motores de aprendizado profundo finamente ajustados pode transformar formulários de baixo custo em poderosas ferramentas de alerta precoce. Com testes adicionais em populações maiores e clinicamente avaliadas e melhores métodos de explicação para mostrar por que o modelo sinaliza alguém como de alto risco, sistemas semelhantes poderiam um dia ajudar a decidir quem deve ser encaminhado para exames de imagem mais detalhados, apoiando diagnósticos mais precoces ao manter a triagem acessível e não invasiva.

Citação: Amrir, M.M.S., Ayid, Y.M., Elshewey, A.M. et al. A hybrid LSTM-GRU framework for lung cancer classification using GWO-WOA algorithm for hyperparameter tuning and BPSO for feature selection. Sci Rep 16, 8600 (2026). https://doi.org/10.1038/s41598-026-39020-6

Palavras-chave: triagem de câncer de pulmão, dados de questionário, aprendizado profundo, seleção de características, IA médica