Clear Sky Science · pt

O ajuste neuronal alinha-se dinamicamente com os mantos de objetos e texturas através da hierarquia visual

· Voltar ao índice

Como o cérebro vê mais do que apenas coisas

Quando você lança um olhar a uma rua movimentada, seu cérebro extrai instantaneamente significado de um emaranhado de carros, rostos, folhas e sombras. Mas células cerebrais individuais não se ativam apenas para categorias nítidas como “carro” ou “rosto”. Muitas vezes elas respondem a imagens não relacionadas, deixando os cientistas intrigados sobre o que essas células realmente representam. Este estudo usa inteligência artificial avançada geradora de imagens para permitir que neurônios isolados “projetem” suas imagens preferidas, revelando como o cérebro equilibra sensibilidade a texturas detalhadas com o reconhecimento de objetos inteiros.

Dois mundos visuais diferentes

Os pesquisadores trabalharam com dois poderosos geradores de imagens, cada um com um “sotaque” visual distinto. Um, chamado DeePSim, é especialmente bom em produzir texturas e padrões ricos, mas suas imagens frequentemente carecem de objetos claros e reconhecíveis. O outro, BigGAN, foi treinado para criar imagens nítidas, parecidas com fotos, repletas de itens distintos como animais e ferramentas. Ao tratar esses geradores como maneiras alternativas de dividir o espaço de imagens possíveis, a equipe pôde perguntar se as células cerebrais se alinham mais com uma visão centrada em textura ou em objetos.

Permitindo que neurônios escolham suas próprias imagens

Em macacos macaques, os cientistas registraram a atividade de neurônios ao longo da via visual ventral — uma cadeia de áreas cerebrais que ajuda a transformar a visão bruta em reconhecimento de objetos. Concentraram-se em três estações: V1 (córtex visual inicial), V4 (uma área intermediária) e PIT (córtex inferotemporal posterior, uma área de alto nível). Durante os experimentos, a taxa de disparo de cada neurônio guiou uma busca em malha fechada através do espaço de imagens de cada gerador. Em sequências rápidas, o neurônio foi mostrado imagens sintéticas; aquelas que desencadeavam mais disparos empurravam o gerador em direção a imagens semelhantes na rodada seguinte. Ao longo de muitas gerações, essa “evolução” produziu imagens altamente ativadoras tanto no espaço de texturas quanto no de objetos.

Figure 1
Figure 1.

Recursos locais ocultos, não apenas objetos inteiros

Surpreendentemente, quando um neurônio otimizou imagens no espaço focado em texturas e no espaço focado em objetos, as imagens finais frequentemente pareciam globalmente diferentes, mas compartilhavam um motivo local específico — como uma borda curva ou um bloco colorido — em localização semelhante. Análises usando redes neurais profundas confirmaram que essas imagens pareadas eram mais semelhantes, no espaço de características, do que imagens otimizadas para neurônios diferentes. Mapas espaciais mostraram que a atividade do neurônio era melhor prevista por regiões particulares dentro das imagens, sugerindo que muitas células respondem a blocos de construção locais recorrentes que podem aparecer em cenas muito diferentes, em vez de a um único molde rígido de objeto.

Mudando o equilíbrio de texturas para objetos

A equipe então perguntou com que facilidade os neurônios em cada área cerebral podiam “escalar” até uma resposta forte dentro de cada espaço de imagens. Nas áreas iniciais V1 e V4, a otimização no espaço de texturas obteve sucesso mais frequentemente, escalou mais rápido e alcançou respostas máximas mais altas do que no espaço de objetos, revelando um claro viés por texturas. Em PIT, contudo, os neurônios se saíram bem em ambos os espaços: podiam ser fortemente conduzidos tanto por imagens sintéticas com aspecto de textura quanto por imagens com aspecto de objeto, e as velocidades de otimização tornaram-se comparáveis. Olhar o tempo das respostas acrescentou outra nuance. Em PIT, imagens baseadas em textura tendiam a aumentar respostas iniciais, enquanto imagens baseadas em objeto envolviam mais fortemente disparos posteriores e sustentados, sugerindo que o processamento orientado a objetos surge mais lentamente no tempo.

Mapas de preferência no espaço de objetos

Para sondar a forma fina dessas preferências, os pesquisadores realizaram experimentos de “ajuste Hessiano” no espaço latente do gerador de objetos. Depois que um neurônio atingia uma resposta forte a uma imagem otimizada com aspecto de objeto, eles amostravam sistematicamente imagens ao longo de muitas direções ao redor desse ponto. Quando a otimização realmente encontrava um pico alto, o disparo do neurônio tipicamente formava curvas em formato de sino ao longo dessas direções, subindo e então caindo conforme as imagens se afastavam da preferida. Quando a otimização não alcançava um pico forte, as curvas de ajuste frequentemente pareciam mais com rampas. Isso mostra que o fato de um neurônio parecer ter um favorito estreito ou uma preferência gradual pode depender de quão exaustivamente procuramos no enorme espaço de imagens possíveis.

Figure 2
Figure 2.

O que isso significa para entender a visão

No conjunto, o estudo desenha um retrato da via visual ventral como um sistema flexível que inicialmente favorece texturas e gradualmente ganha um domínio igualmente forte sobre a estrutura de objetos. Em vez de codificar objetos inteiros como unidades indivisíveis, os neurônios parecem priorizar características locais reutilizáveis que podem ser combinadas em muitas cenas diferentes. Neurônios de alto nível em PIT podem alinhar-se tanto a uma descrição baseada em texturas quanto a uma baseada em objetos, uma versatilidade que as redes artificiais atuais ainda têm dificuldade em igualar. Para um leitor leigo, a mensagem chave é que nossos cérebros não são simplesmente “detectores de objetos”: são motores sofisticados de padrões que podem extrair significado tanto de texturas finas quanto de formas inteiras, mudando ênfase no espaço e no tempo para sustentar a rica experiência visual que tomamos como certa.

Citação: Wang, B., Ponce, C.R. Neuronal tuning aligns dynamically with object and texture manifolds across the visual hierarchy. Nat Neurosci 29, 864–875 (2026). https://doi.org/10.1038/s41593-026-02207-1

Palavras-chave: córtex visual, reconhecimento de objetos, processamento de texturas, modelos generativos, ajuste neuronal