Clear Sky Science · ru

Классификация изображений древней архитектуры с прогрессивным стекингом и псевдообратным обучением

· Назад к списку

Почему старые здания встречаются с современными алгоритмами

По всей Китаю храмы и дворцы со взлетающими карнизами и сложными деревянными кронштейнами фотографируют в огромных количествах. Архивариусам и специалистам по сохранению наследия нужно быстро сортировать эти изображения, но делать это вручную медленно и субъективно. В этой статье предлагается новый способ обучения компьютеров распознавать и классифицировать снимки древних зданий более точно и эффективно, что помогает защищать культурное наследие в цифровую эпоху.

Figure 1
Figure 1.

Что затрудняет различение этих зданий

Древняя китайская архитектура богата повторяющимися узорами: изогнутые линии крыши, многослойные наборы кронштейнов под карнизами, резные балки и яркая декоративная отделка поверхностей. Многие здания имеют похожие планы, отличаясь лишь тонкими вариациями кривизны крыши или формы кронштейнов. Стандартные системы распознавания изображений, которые учатся путём постепенной настройки внутренних весов, могут сбиваться на таких тонких различиях и отвлекающих факторах, таких как цвет стен или освещение. Они также склонны переобучаться на один регион или стиль при одновременном обучении на большой партии изображений, что снижает их способность обобщать на здания с других площадок.

Более умный взгляд на ключевые детали

Авторы вводят фреймворк под названием классификация изображений древней архитектуры с прогрессивным стекингом и псевдообратным обучением (AAPSP). В его основе лежит модуль, названный стекинг ключевых признаков с псевдообратным обучением (KFSP). Вместо того чтобы начинать с полностью случайных настроек, KFSP строит несколько параллельных «базовых обучателей», каждый из которых инициализируется весовыми шаблонами, предназначенными для соответствия определённым визуальным чертам. Две ветви настраиваются так, чтобы особенно чувствительно улавливать плавные, непрерывные структуры, такие как контуры крыши, тогда как третья — для более рассеянных текстур, например декоративных мотивов. Математический приём, известный как псевдообратное обучение, позволяет обучить эти ветви практически за один шаг, избегая медленных пошаговых обновлений весов, характерных для традиционных глубоких сетей.

Дать модели возможность обращать внимание туда, где это важно

Наличие нескольких ветвей само по себе недостаточно; система также должна решать, какая ветвь наиболее полезна для конкретного решения. Для этого KFSP использует механизм внимания, который оценивает, насколько выход каждой ветви соответствует истинным меткам зданий. Ветви, которые лучше улавливают характерные элементы — например форму дуги или контур декора на карнизе — автоматически получают больший вес при объединении их выходов. Это стекированное представление формирует пространство признаков, которое ближе следует внутренней «логике формы» в древней архитектуре: здания с похожими структурными компонентами группируются вместе, а представители разных стилей яснее разделяются.

Figure 2
Figure 2.

Обучение на самых информативных фотографиях

Второй ключевой модуль, прогрессивное оптимизационное обучение (POL), решает другую задачу: избыточность обучающих изображений. Многие фотографии в наборе показывают практически одинаковые виды одного фасада и мало добавляют новой информации. POL начинает с разделения данных на начальный обучающий набор и более крупный пул кандидатов. Используя идеи активного обучения, он анализирует, с какой уверенностью текущая модель классифицирует каждое кандидатное изображение и насколько его признаки необычны. Фотографии, которые одновременно вызывают неопределённость и отличаются уникальными особенностями — например редкими сочетаниями кронштейнов или необычными конфигурациями крыш — постепенно переводятся в обучающий набор. Этот цикл повторяется, постепенно обогащая обучающие данные сложными и разнообразными примерами без увеличения общего числа используемых изображений.

Насколько хорошо это работает на практике

Авторы проверили свой подход на публичной коллекции из 2269 изображений шести известных храмов и дворцов. После применения только KFSP система уже превосходила сопоставимый метод, опиравшийся на полностью случайные проекции. При добавлении прогрессивного отбора образцов POL точность классификации выросла дальше, а показатели точности, полноты и F1-меры увеличились. Иначе говоря, модель стала как более надёжной в своих правильных предсказаниях, так и лучше находить менее распространённые категории. Исследование также выявило сохраняющуюся трудность: классы с очень малым количеством изображений по-прежнему представляют проблему, поскольку даже умному алгоритму сложно учиться при недостатке вариативности.

Почему это важно для культурного наследия

Тщательно направляя как то, на что модель обращает внимание, так и какие изображения она изучает, AAPSP предоставляет более точный инструмент для сортировки и изучения фотографий исторических зданий. Для специалистов по наследию это означает более быстрое создание цифровых архивов, лучшую поддержку в датировке и сравнении архитектурных стилей и более надёжный мониторинг объектов, разбросанных по разным регионам. Хотя метод ориентирован на древнюю китайскую архитектуру, его ключевые идеи — выделение основных структурных деталей и постепенный фокус на редких, но информативных примерах — могут быть адаптированы к другим видам культурных объектов, от скульптур до исторических городских пейзажей.

Цитирование: Cai, Z., Sun, X., Zhang, S. et al. Ancient architecture image classification with progressive stacking pseudoinverse learning. Sci Rep 16, 14626 (2026). https://doi.org/10.1038/s41598-026-44876-9

Ключевые слова: древняя архитектура, классификация изображений, культурное наследие, машинное обучение, активное обучение