Clear Sky Science · pt
Classificação multiclasse de doenças oculares usando fusões de EfficientNetB0 em deep learning
Por que exames oftalmológicos precoces importam
A perda de visão costuma surgir de forma silenciosa. Problemas oculares comuns como catarata, glaucoma e danos diabéticos à retina podem roubar a visão muito antes de os sintomas ficarem óbvios. Em todo o mundo, não há especialistas suficientes para examinar todas as pessoas a tempo, especialmente em áreas rurais ou de baixa renda. Este estudo investiga como um sistema computacional inteligente que interpreta fotografias do fundo do olho poderia ajudar médicos a detectar várias doenças oculares importantes de forma precoce e confiável, usando o mesmo tipo de inteligência artificial que alimenta buscas de imagem e reconhecimento facial modernos.
Enxergando doenças em uma única imagem
Médicos oftalmologistas já usam fotografias coloridas da retina — a camada sensível à luz na parte posterior do olho — para procurar sinais de doença. Nessas imagens, catarata aparece como opacificação no caminho óptico, glaucoma altera a forma do nervo óptico, e a retinopatia diabética espalha pequenas hemorragias e cicatrizes pela retina. Os pesquisadores reuniram 4.217 imagens de retina em alta resolução, equilibradas entre quatro grupos: olhos saudáveis, catarata, glaucoma e retinopatia diabética. Ao trabalhar com uma coleção balanceada extraída de várias fontes públicas, reduziram o risco de o computador aprender atalhos ligados a um hospital, câmera ou tipo de doença específicos, em vez dos sinais reais de enfermidade. 
Deixando dois cérebros trabalharem juntos
Programas modernos de leitura de imagem, chamados modelos de deep learning, são muito bons em detectar padrões, mas cada um tem seus pontos fortes e pontos cegos. Em vez de confiar em um único modelo, a equipe construiu sistemas “com dupla espinha dorsal” que executam em paralelo duas redes de imagem bem conhecidas e então misturam o que cada uma identifica. Uma dessas redes, EfficientNetB0, é um modelo compacto e eficiente que captura a estrutura geral das imagens; ela foi sempre usada como base. Foi emparelhada, por sua vez, com três outros modelos — ResNet50, InceptionV3 e AlexNet — que se especializam em reconhecimento de padrões mais profundo, em múltiplas escalas ou de forma mais leve. Os sistemas então combinaram os dois conjuntos de características de várias maneiras: juntando-os simplesmente, somando-os, ponderando-os de forma diferente ou permitindo que cada modelo votasse na resposta final.
Colocando o sistema à prova
Os pesquisadores treinaram e ajustaram 12 combinações diferentes de modelos na maior parte das imagens de retina, reservando algumas para verificar o desempenho. Nesse teste interno, a melhor abordagem juntou características do EfficientNetB0 e do ResNet50, alcançando cerca de 95% de acurácia geral e uma pontuação quase perfeita em uma métrica padrão de qualidade diagnóstica. Combinações semelhantes com InceptionV3 e AlexNet também tiveram desempenho forte. Para avaliar se o sistema lidava com a variedade do mundo real em vez de apenas memorizar o conjunto de treinamento, a equipe testou todos os modelos em 400 imagens de duas coleções independentes obtidas em hospitais diferentes com câmeras diferentes. Aqui, a acurácia subiu ainda mais, para algo entre cerca de 95% e 98%, e todos os modelos mantiveram pontuações muito altas na separação entre olhos doentes e saudáveis.
Olhando dentro da caixa‑preta
Médicos e reguladores cada vez mais perguntam não só “Quão preciso é?” mas também “Por que decide assim?”. Para responder a isso, os autores usaram ferramentas de visualização como Score‑CAM e LIME. Essas ferramentas destacam quais partes de uma imagem mais influenciam o veredito do modelo, transformando a “atenção” do sistema em mapas de calor sobrepostos à retina. Para retinopatia diabética, as áreas destacadas coincidiam com vasos sanguíneos com vazamento e manchas próximas à mácula, o centro da visão nítida. No caso do glaucoma, o foco estava na cabeça do nervo óptico e nos tecidos circundantes, onde ocorre o dano. Decisões relacionadas à catarata enfatizavam uma nebulosidade difusa ao longo do caminho visual. Crucialmente, olhos normais não exibiram pontos quentes fortes e fora do lugar. Essa correspondência estreita entre o foco do modelo e a anatomia descrita em livros sugere que o sistema está se baseando nas mesmas características que os clínicos usam na prática. 
O que isso pode significar para o cuidado cotidiano
Para um não especialista, a conclusão é que uma única fotografia da retina, tirada com uma câmera padrão, poderia em breve ajudar a rastrear simultaneamente várias causas principais de cegueira. O design com duas redes e as formas inteligentes de fundir suas saídas proporcionaram não só alta acurácia, mas também resultados estáveis quando as imagens vieram de novas clínicas e dispositivos — uma exigência para uso no mundo real. Embora sejam necessários mais testes em populações maiores e mais diversas, especialmente antes que a tecnologia possa orientar tratamentos por conta própria, este trabalho mostra que combinar diferentes tipos de “olhos” artificiais pode produzir segundas opiniões rápidas e confiáveis. Em hospitais sobrecarregados, pequenas clínicas ou unidades móveis de triagem, tais ferramentas poderiam ajudar a sinalizar quem precisa com mais urgência ver um oftalmologista, potencialmente preservando a visão de milhões.
Citação: Sah, U.K., Chatterjee, J.M. & Sujatha, R. Multi-class eye disease classification using deep learning EfficientNetB0 fusion techniques. Sci Rep 16, 6368 (2026). https://doi.org/10.1038/s41598-026-35357-0
Palavras-chave: doença ocular, imagens da retina, deep learning, glaucoma, retinopatia diabética