Clear Sky Science · pt

Aumento de dados orientado por fidelidade para modelo de linguagem multimodal em interpretação do patrimônio arquitetônico

· Voltar ao índice

Por que edifícios antigos precisam de ajudantes digitais inteligentes

Em muitas cidades históricas, arcadas de rua ornamentadas e fachadas desgastadas estão desaparecendo ou sendo reconstruídas radicalmente. Especialistas correm para documentar e proteger esse patrimônio arquitetônico, mas o trabalho é lento e exige conhecimento profundo de estilo, estrutura e história. Este estudo explora como um novo tipo de inteligência artificial — modelos multimodais de grande porte capazes de ver imagens e ler texto — pode ajudar, e que tipo de dados de treinamento cuidadosamente elaborados eles precisam para realmente compreender edifícios antigos em vez de apenas supor sobre eles.

Figure 1
Figure 1.

Quando a IA olha para edifícios e erra

Os autores começam testando vários sistemas de IA de última geração em fotos de arcadas comerciais históricas em Guangzhou, China. Esses edifícios, conhecidos como Qilou, misturam influências chinesas e ocidentais e formam paisagens de rua longas e contínuas. Especialistas criaram um benchmark com 50 imagens de fachadas e milhares de perguntas de múltipla escolha sobre o que aparece em cada cena: quantos pavimentos uma sacada atravessa, se certos suportes decorativos são de um tipo ou outro, de que material são os caixilhos das janelas e como avaliar danos. Mesmo os melhores sistemas comerciais, incluindo alguns dos maiores modelos disponíveis, frequentemente interpretam mal essas imagens — posicionando sacadas no andar errado, confundindo elementos arquitetônicos-chave ou chamando janelas modernas de alumínio de “madeira” baseando-se principalmente na cor.

Desmembrando como as pessoas leem uma fachada

Para entender essas falhas, os pesquisadores mapeiam a interpretação do patrimônio em três habilidades semelhantes às humanas. A primeira é a percepção visual: notar o que está presente, como janelas, colunas e materiais de superfície. A segunda é o raciocínio espacial: compreender como partes da fachada se alinham e se repetem, incluindo simetria e o ritmo vertical e horizontal das aberturas. A terceira é o raciocínio contextual: decidir o que a condição e a história do edifício implicam, por exemplo se pintura descascada sinaliza deterioração séria ou apenas desgaste leve. Seus testes mostram que os sistemas atuais de IA têm especial dificuldade com a segunda e a terceira habilidades — disposição espacial precisa e significado nuançado — porque raramente viram exemplos de patrimônio rigorosamente rotulados durante o treinamento.

Ensinando IA com imagens fabricadas que ainda dizem a verdade

Simplesmente coletar mais fotos reais e rótulos de especialistas seria extremamente custoso. Em vez disso, a equipe constrói um “amplificador” de dados que cria imagens sintéticas convincentes de fachadas e pares correspondentes de pergunta–resposta. A ideia-chave é tratar separadamente dois aspectos de uma fachada: seu esqueleto espacial (a disposição exata e as proporções de aberturas e ornamentos) e sua tonalidade semântica (materiais, estilo histórico e envelhecimento). Usando um motor moderno de geração de imagens, eles adicionam um módulo especializado que fixa a geometria seguindo mapas de arestas desenhados a partir de edifícios reais, e outro que controla detalhes estilísticos por meio de adaptadores leves treinados em pequenos grupos de estilo coerentes. Ao misturar e combinar layouts e estilos, o sistema produz mais de 1.400 variações de fachadas a partir de apenas 208 originais, mantendo a aparência e a sensação firmemente ancoradas na arquitetura real.

Figure 2
Figure 2.

Verificando se o mundo sintético corresponde ao real

Os autores então perguntam: essas fachadas artificiais se comportam como dados reais de patrimônio? Eles comparam similaridade estrutural, proximidade semântica em um espaço de características aprendido e os julgamentos de especialistas humanos. Pontuações quantitativas mostram que o módulo focado na estrutura melhora nitidamente o quão bem o layout de edifícios sintéticos corresponde aos exemplos reais, enquanto o módulo focado no estilo aumenta a diversidade sem se afastar do caráter regional autêntico. Revisores especialistas avaliam as imagens aumentadas como muito mais plausíveis e fiéis estilisticamente do que as produzidas por um gerador padrão e, crucialmente, constataram que preservam detalhes suficientes para respostas confiáveis a perguntas sobre materiais, elementos e danos.

Modelos menores ajustados que superam modelos gerais maiores

Munidos desse conjunto de dados expandido, a equipe faz fine-tuning em um modelo visão–linguagem de porte médio de código aberto e depois o testa em benchmarks mistos de fachadas chinesas e europeias. Apesar de ter muito menos parâmetros internos do que os principais sistemas comerciais, o modelo ajustado agora os supera em quase todos os tipos de tarefa, especialmente na leitura de simetria, contagem e alinhamento de elementos e distinção de materiais. Auditorias de especialistas de suas explicações passo a passo mostram uma mudança de “alucinações” erráticas para um raciocínio mais fundamentado e atento ao edifício: o modelo cita evidências visuais reais, aplica regras arquitetônicas com mais consistência e faz menos saltos lógicos. A análise dos erros remanescentes aponta novas frentes — como representar melhor distorções de perspectiva e codificar normas profissionais sobre quando a deterioração visível realmente exige intervenção.

Como isso ajuda a proteger ruas históricas

Para um leitor não especialista, a mensagem mais profunda é que mais poder de IA por si só não basta para salvaguardar o patrimônio arquitetônico. O que importa ao menos tanto quanto é a fidelidade e a estrutura dos dados que alimentamos nesses sistemas. Ao gerar fachadas sintéticas que preservam cuidadosamente a geometria e o significado de edifícios reais, este estudo mostra como um modelo compacto e disponível publicamente pode se tornar um parceiro mais confiável para especialistas. Tais sistemas poderiam, eventualmente, escanear bairros inteiros, sinalizar alterações arriscadas e apoiar decisões de reparo em escala, ajudando cidades a manter suas paisagens de ruas históricas distintivas vivas diante de mudanças rápidas.

Citação: Huang, R., Lin, HC. & Zeng, W. Fidelity-driven data augmentation for multimodal large language model on architectural heritage interpretation. npj Herit. Sci. 14, 179 (2026). https://doi.org/10.1038/s40494-026-02446-2

Palavras-chave: patrimônio arquitetônico, IA multimodal, aumento de dados, fachadas históricas, preservação cultural