Clear Sky Science · es
Aumento de datos guiado por fidelidad para modelos multimodales de lenguaje amplio en la interpretación del patrimonio arquitectónico
Por qué los edificios antiguos necesitan asistentes digitales inteligentes
En muchas ciudades históricas, las galerías porticadas ornamentadas y las fachadas desgastadas están desapareciendo o siendo reconstruidas radicalmente. Los expertos corren para documentar y proteger este patrimonio arquitectónico, pero el trabajo es lento y exige un conocimiento profundo del estilo, la estructura y la historia. Este estudio explora cómo un nuevo tipo de inteligencia artificial —modelos multimodales de gran tamaño capaces de ver imágenes y leer texto— podría ayudar, y qué tipo de datos de entrenamiento cuidadosamente diseñados necesitan para comprender verdaderamente los edificios antiguos en lugar de limitarse a conjeturar sobre ellos.

Cuando la IA mira edificios y se equivoca
Los autores comienzan probando varios sistemas de IA de última generación con fotos de galerías comerciales históricas en Guangzhou, China. Estos edificios, conocidos como Qilou, combinan influencias chinas y occidentales y forman paisajes urbanos continuos y alargados. Especialistas crearon un banco de pruebas de 50 imágenes de fachadas y miles de preguntas de opción múltiple sobre lo que aparece en cada escena: cuántos pisos abarca un balcón, si ciertos soportes decorativos son de un tipo u otro, de qué material están hechas las carpinterías de las ventanas y cómo debe evaluarse el daño. Incluso los mejores sistemas comerciales, incluidos algunos de los modelos más grandes disponibles, interpretan mal estas imágenes de forma habitual —colocando balcones en el piso equivocado, confundiendo elementos arquitectónicos clave o calificando ventanas modernas de aluminio como “de madera” basándose principalmente en el color.
Descomponer cómo las personas leen una fachada
Para entender estas fallas, los investigadores descomponen la interpretación del patrimonio en tres habilidades semejantes a las humanas. La primera es la percepción visual: notar qué está presente, como ventanas, columnas y materiales de la superficie. La segunda es el razonamiento espacial: comprender cómo las partes de la fachada se alinean y se repiten, incluida la simetría y el ritmo vertical y horizontal de los huecos. La tercera es el razonamiento contextual: decidir qué implican la condición y la historia del edificio, por ejemplo si la pintura descascarillada señala un deterioro serio o solo un desgaste leve. Sus pruebas muestran que los sistemas de IA actuales tienen especial dificultad con la segunda y la tercera habilidad —diseño espacial preciso y significado matizado— porque rara vez han visto ejemplos patrimoniales cuidadosamente etiquetados durante su entrenamiento.
Enseñar a la IA con imágenes creadas que siguen siendo veraces
Recopilar simplemente más fotos reales y etiquetas de expertos sería extremadamente costoso. En su lugar, el equipo construye un “amplificador” de datos que crea imágenes sintéticas convincentes de fachadas junto con pares de preguntas y respuestas correspondientes. La idea clave es tratar por separado dos aspectos de una fachada: su esqueleto espacial (la disposición exacta y las proporciones de huecos y ornamentos) y su sabor semántico (materiales, estilo histórico y envejecimiento). Usando un motor moderno de generación de imágenes, añaden un módulo especializado que fija la geometría siguiendo mapas de bordes dibujados a partir de edificios reales, y otro que controla los detalles estilísticos mediante adaptadores ligeros entrenados en pequeños grupos coherentes de estilo. Al mezclar y combinar diseños y estilos, el sistema produce más de 1.400 nuevas variaciones de fachadas a partir de solo 208 originales, manteniendo a la vez la apariencia y la sensación firmemente ancladas en la arquitectura real.

Comprobar si el mundo sintético coincide con el real
Los autores se preguntan entonces: ¿se comportan estas fachadas artificiales como datos patrimoniales reales? Comparan similitud estructural, cercanía semántica en un espacio de características aprendido y los juicios de expertos humanos. Las puntuaciones cuantitativas muestran que el módulo centrado en la estructura mejora de forma notable cómo coincide la disposición de los edificios sintéticos con los ejemplos reales, mientras que el módulo centrado en el estilo aumenta la diversidad sin desviarse del carácter regional auténtico. Los revisores expertos valoran las imágenes aumentadas como mucho más plausibles y fieles estilísticamente que las producidas por un generador estándar y, de forma crucial, encuentran que preservan suficiente detalle para responder de forma fiable a preguntas sobre materiales, elementos y daños.
Modelos más pequeños ajustados que superan a otros más grandes y generales
Con este conjunto de datos ampliado, el equipo ajusta finamente un modelo de visión y lenguaje de código abierto de tamaño medio y luego lo evalúa en bancos de pruebas mixtos de fachadas chinas y europeas. A pesar de tener muchos menos parámetros internos que los principales sistemas comerciales, el modelo afinado ahora los supera en casi todos los tipos de tarea, especialmente en leer la simetría, contar y alinear elementos y distinguir materiales. Auditorías de expertos sobre sus explicaciones paso a paso muestran un cambio desde «alucinaciones» erráticas hacia un razonamiento más fundamentado y consciente del edificio: el modelo cita evidencia visual real, aplica reglas arquitectónicas con mayor consistencia y realiza menos saltos lógicos. El análisis de sus errores restantes apunta a nuevas fronteras —como representar mejor las distorsiones por perspectiva y codificar estándares profesionales sobre cuándo la degradación visible exige realmente intervención.
Cómo esto ayuda a proteger calles históricas
Para un lector no especializado, el mensaje más profundo es que más potencia de IA por sí sola no basta para salvaguardar el patrimonio arquitectónico. Lo que importa al menos tanto es la fidelidad y la estructura de los datos que alimentamos a estos sistemas. Al generar fachadas sintéticas que preservan cuidadosamente la geometría y el significado de los edificios reales, este estudio muestra cómo un modelo compacto y de acceso abierto puede convertirse en un socio más confiable para los expertos. Tales sistemas podrían eventualmente escanear distritos enteros, señalar alteraciones riesgosas y apoyar decisiones de reparación a escala, ayudando a las ciudades a mantener vivas sus distintivas calles históricas frente al cambio acelerado.
Cita: Huang, R., Lin, HC. & Zeng, W. Fidelity-driven data augmentation for multimodal large language model on architectural heritage interpretation. npj Herit. Sci. 14, 179 (2026). https://doi.org/10.1038/s40494-026-02446-2
Palabras clave: patrimonio arquitectónico, IA multimodal, aumento de datos, fachadas históricas, preservación cultural