Clear Sky Science · ru
Аугментация данных с сохранением достоверности для мультимодальной большой языковой модели в интерпретации архитектурного наследия
Почему старым зданиям нужны умные цифровые помощники
Во многих исторических городах украшенные аркады вдоль улиц и потертые фасады зданий исчезают или подвергаются радикальной перестройке. Эксперты спешат документировать и защищать это архитектурное наследие, но работа идет медленно и требует глубоких знаний стиля, структуры и истории. В этом исследовании изучается, как новый тип искусственного интеллекта — мультимодальные большие языковые модели, которые могут «смотреть» на изображения и читать текст — может помочь, и какие типы тщательно подготовленных учебных данных им нужны, чтобы действительно понимать старые здания, а не просто предполагать их характеристики.

Когда ИИ смотрит на здания и ошибается
Авторы начинают с тестирования нескольких современных систем ИИ на фотографиях исторических торгово-жилых аркад Гуанчжоу, Китай. Эти здания, известные как Qilou, соединяют китайские и западные влияния и образуют длинные непрерывные улицы. Специалисты составили эталон из 50 изображений фасадов и тысяч вопросов с вариантами ответов о том, что изображено на каждой сцене: на сколько этажей простирается балкон, относится ли определенная опорная деталь к одному типу или другому, из какого материала выполнены оконные рамы и как оценивать повреждения. Даже лучшие коммерческие системы, включая некоторые из крупнейших доступных моделей, регулярно неправильно читают эти изображения — ставят балконы не на тот этаж, путают ключевые архитектурные элементы или называют современные алюминиевые окна «деревянными», опираясь в основном на цвет.
Разбирая, как люди читают фасад
Чтобы понять эти ошибки, исследователи представляют интерпретацию наследия в виде трех человекоподобных навыков. Первый — визуальное восприятие: замечать, что присутствует, например окна, колонны и материалы поверхностей. Второй — пространственное рассуждение: понимать, как части фасада выстраиваются и повторяются, включая симметрию и вертикальный и горизонтальный ритм проемов. Третий — контекстуальное рассуждение: решать, что подразумевает состояние и история здания, например указывает ли облупившаяся краска на серьезное разрушение или лишь на легкий износ. Их тесты показывают, что современные системы ИИ особенно испытывают трудности со вторым и третьим навыками — точной пространственной разметкой и нюансированным смыслом — потому что при обучении им редко показывали тщательно размеченные примеры наследия.
Обучение ИИ на вымышленных изображениях, которые остаются правдивыми
Простое накопление дополнительных реальных фотографий и экспертных меток было бы чрезвычайно дорого. Вместо этого команда создает «усилитель» данных, который генерирует правдоподобные синтетические изображения фасадов и соответствующие пары вопросов и ответов. Ключевая идея заключается в том, чтобы рассматривать две стороны фасада отдельно: его пространственный скелет (точное расположение и пропорции проемов и орнаментов) и его семантический слой (материалы, исторический стиль и следы погодных воздействий). Используя современный движок генерации изображений, они добавляют специализированный модуль, который фиксирует геометрию, следуя картам контуров, нарисованным по реальным зданиям, и другой модуль, который управляет стилистическими деталями через легкие адаптеры, обученные на небольших однородных группах стилей. Смешивая макеты и стили, система генерирует более 1 400 новых вариаций фасадов всего из 208 оригиналов, при этом сохраняет внешний вид и ощущение, строго привязанные к реальной архитектуре.

Проверка соответствия синтетического и реального миров
Далее авторы задают вопрос: ведут ли себя эти искусственные фасады как реальные данные наследия? Они сравнивают структурное сходство, семантическую близость в обученном пространстве признаков и суждения экспертов. Количественные показатели показывают, что модуль, ориентированный на структуру, заметно улучшает соответствие расположения синтетических зданий реальным примерам, в то время как модуль, ориентированный на стиль, увеличивает разнообразие, не уводя образа от подлинного регионального характера. Экспертные рецензенты оценивают дополненные изображения как значительно более правдоподобные и стилистически верные, чем сгенерированные стандартным генератором, и, что важно, находят, что они сохраняют достаточно деталей для надежного ответа на вопросы о материалах, элементах и повреждениях.
Компактные донастроенные модели, превосходящие крупные универсальные
Вооружившись расширенным набором данных, команда донастраивает среднюю по размеру открытое модель зрения‑и‑языка, затем тестирует ее на смешанных китайских и европейских эталонах фасадов. Несмотря на гораздо меньшее количество внутренних параметров по сравнению с ведущими коммерческими системами, настроенная модель теперь обходит их почти по всем типам задач, особенно в чтении симметрии, подсчете и выравнивании элементов и различении материалов. Экспертные аудиты пошаговых объяснений показывают сдвиг от диких «галлюцинаций» в сторону обоснованных, ориентированных на здания рассуждений: модель ссылается на реальные визуальные признаки, последовательно применяет архитектурные правила и делает меньше логических прыжков. Анализ оставшихся ошибок указывает на новые направления — например, улучшенное представление искажений перспективы и кодирование профессиональных стандартов для определения, когда видимые разрушения действительно требуют вмешательства.
Как это помогает защищать исторические улицы
Для неспециалиста главный вывод в том, что одних лишь вычислительных мощностей ИИ недостаточно для охраны архитектурного наследия. Не менее важно качество и структура данных, которые мы подаем в эти системы. Генерируя синтетические фасады, которые тщательно сохраняют геометрию и смысл реальных зданий, это исследование показывает, как компактная, общедоступная модель может стать более надежным партнером для специалистов. Такие системы в будущем могли бы сканировать целые кварталы, отмечать рискованные изменения и поддерживать принятие решений по ремонту в масштабе, помогая городам сохранять свои характерные исторические улицы в условиях быстрого изменения.
Цитирование: Huang, R., Lin, HC. & Zeng, W. Fidelity-driven data augmentation for multimodal large language model on architectural heritage interpretation. npj Herit. Sci. 14, 179 (2026). https://doi.org/10.1038/s40494-026-02446-2
Ключевые слова: архитектурное наследие, мультимодальный ИИ, аугментация данных, исторические фасады, сохранение культуры