Clear Sky Science · pt

Classificação de imagens de arquitetura antiga com aprendizado pseudoinverso empilhado progressivo

· Voltar ao índice

Por que edifícios antigos encontram algoritmos modernos

Por toda a China, templos e palácios com telhados varridos e complexos cavaletes de madeira estão sendo fotografados em grande número. Arquivistas e conservadores precisam organizar essas imagens rapidamente, mas fazer isso manualmente é lento e subjetivo. Este artigo apresenta uma nova maneira de ensinar computadores a reconhecer e classificar fotos de edifícios antigos com mais precisão e eficiência, ajudando a proteger o patrimônio cultural na era digital.

Figure 1
Figure 1.

O que torna esses edifícios difíceis de diferenciar

A arquitetura chinesa antiga é rica em padrões repetitivos: linhas de telhado curvas, conjuntos de cavaletes em camadas sob os beirais, vigas talhadas e decoração superficial colorida. Muitos edifícios compartilham layouts semelhantes, diferindo apenas em sutis variações na curvatura do telhado ou na forma dos cavaletes. Sistemas padrão de reconhecimento de imagens, que aprendem ajustando gradualmente pesos internos, podem ser confundidos por essas diferenças de fino detalhe e por pistas distrativas como cor da parede ou iluminação. Eles também tendem a superajustar a uma região ou estilo quando treinados de uma só vez em um grande lote de imagens, reduzindo sua capacidade de generalizar para edifícios de outros locais.

Uma forma mais inteligente de olhar os detalhes-chave

Os autores introduzem uma estrutura chamada classificação de imagens de arquitetura antiga com aprendizado pseudoinverso empilhado progressivo (AAPSP). No seu núcleo está um módulo chamado aprendizado pseudoinverso empilhado de características-chave (KFSP). Em vez de começar a partir de configurações completamente aleatórias, o KFSP constrói vários “aprendizes base” em paralelo, cada um inicializado com padrões de pesos projetados para corresponder a traços visuais particulares. Dois ramos são ajustados para ser especialmente sensíveis a estruturas suaves e contínuas, como contornos de telhado, enquanto um terceiro é calibrado para captar texturas mais dispersas, como motivos decorativos. Um atalho matemático conhecido como aprendizado por pseudoinversa permite que esses ramos sejam treinados essencialmente em uma única etapa, evitando as atualizações lentas, passo a passo dos pesos típicas do aprendizado profundo tradicional.

Fazendo o modelo prestar atenção onde importa

Ter múltiplos ramos não basta; o sistema também precisa decidir qual ramo é mais útil para cada decisão. Para isso, o KFSP usa um mecanismo de atenção que mede quão próximas as saídas de cada ramo estão dos rótulos reais dos edifícios. Ramos que capturam melhor elementos indicativos — como a forma de um arco de balde ou o contorno de um ornamento de cumeeira — recebem automaticamente mais influência quando suas saídas são combinadas. Essa representação empilhada forma um espaço de características que segue mais de perto a “lógica da forma” subjacente na arquitetura antiga, de modo que edifícios com componentes estruturais semelhantes se agrupam e aqueles com estilos diferentes se separam mais claramente.

Figure 2
Figure 2.

Aprendendo com as fotos mais informativas

O segundo módulo central, aprendizado de otimização progressiva (POL), enfrenta outro problema: imagens redundantes de treinamento. Muitas fotos no conjunto mostram vistas quase idênticas da mesma fachada, oferecendo pouca informação nova. O POL começa dividindo os dados em um conjunto inicial de treinamento e uma grande reserva de candidatos. Usando ideias de aprendizado ativo, ele analisa quão confiante o modelo atual classifica cada imagem candidata e quão incomuns parecem suas características. Fotos que são ao mesmo tempo incertas e distintivas — como arranjos raros de cavaletes ou combinações de telhado incomuns — são gradualmente transferidas para o conjunto de treinamento. Esse ciclo se repete, enriquecendo de forma contínua os dados de treinamento com exemplos desafiadores e diversos sem aumentar o número total de imagens usadas.

Quão bem isso funciona na prática

Os autores testaram sua abordagem em uma coleção pública de 2.269 imagens de seis famosos templos e palácios. Após aplicar apenas o KFSP, o sistema já superou um método comparável que dependia de projeções totalmente aleatórias. Quando a seleção progressiva de amostras do POL foi adicionada, a acurácia da classificação melhorou ainda mais, e as medidas de precisão, recall e F1 aumentaram. Em outras palavras, o modelo tornou-se ao mesmo tempo mais confiável em seus acertos e melhor em identificar categorias menos comuns. O estudo também destacou uma dificuldade remanescente: classes com muito poucas imagens ainda representam um desafio, porque mesmo um aprendente inteligente luta quando há pouca variedade para aprender.

Por que isso importa para o patrimônio cultural

Ao direcionar cuidadosamente tanto o que o modelo presta atenção quanto quais imagens ele aprende, o AAPSP oferece uma ferramenta mais precisa para organizar e estudar fotos de edifícios históricos. Para profissionais de patrimônio, isso significa criação mais rápida de arquivos digitais, melhor suporte para datar e comparar estilos arquitetônicos e monitoramento mais robusto de locais espalhados por diferentes regiões. Embora o método seja adaptado à arquitetura antiga chinesa, suas ideias centrais — destacar detalhes estruturais-chave e focar progressivamente em exemplos raros porém informativos — poderiam ser adaptadas a outros tipos de objetos culturais, desde esculturas a cenários urbanos históricos.

Citação: Cai, Z., Sun, X., Zhang, S. et al. Ancient architecture image classification with progressive stacking pseudoinverse learning. Sci Rep 16, 14626 (2026). https://doi.org/10.1038/s41598-026-44876-9

Palavras-chave: arquitetura antiga, classificação de imagens, patrimônio cultural, aprendizado de máquina, aprendizado ativo