Clear Sky Science · ru

Geo-TCAM: метод подписи танкх, интегрирующий тематическое моделирование с геометрически направленным пространственным вниманием

2026-02-07 · Назад к списку

Древнее искусство встречает умные технологии

Танкхи — ярко раскрашенные свитки, которыми украшены многие тибетские храмы — полны мелких деталей и слоёв религиозного смысла. Для посетителей музеев или онлайн-аудитории без специальной подготовки большая часть этой символики остаётся трудной для понимания. В этом исследовании представлен Geo‑TCAM — система искусственного интеллекта, разработанная для автоматического создания богатых и точных описаний изображений танкх, помогающая людям по всему миру лучше понять и сохранить это уникальное культурное наследие.

Почему танкхи трудно анализировать компьютерам

В отличие от повседневных фотографий, танкхи намеренно насыщены символами. В одном полотне может быть изображено центральное божество, десятки меньших фигур, узорные рамки и специфические жесты рук, предметы, цвета и позы — всё это несёт религиозное значение. Обычные программы для подписей изображений справляются с простыми сценами вроде «собака на пляже», но здесь они испытывают трудности: могут назвать главного Будду, но пропустить, держит ли он чашу или меч, неправильно интерпретировать позу или перепутать его с похожим божеством. Такие ошибки не тривиальны — они способны исказить историю и доктрину, которые передаёт картина, подрывая её образовательную и культурную ценность.

Новая схема для описания священных изображений

Geo‑TCAM решает эти проблемы, сочетая три идеи: визуальные признаки на нескольких уровнях, тематические знания о искусстве танкх и геометрически направленное внимание к ключевым зонам, например к лицам. Во‑первых, он использует глубокую сеть (ResNet50), которая одновременно анализирует изображение на нескольких уровнях: средние слои фиксируют края, текстуры и простые формы, в то время как более глубокие слои суммируют общую композицию. Слияние этих уровней позволяет модели замечать как тонкие детали, например орнаменты, так и общее расположение фигур и фона, обеспечивая более богатое визуальное понимание по сравнению с ранними системами, ориентировавшимися на один уровень.

Обучение модели «темам» танкх

Одного зрения недостаточно; системе также нужен контекст языка и тематики танкх. Для этого исследователи обучили тематическую модель на тысячах экспертных описаний танкх. Эта модель группирует слова в несколько распространённых тем — например, связанные с Буддами, бодхисаттвами, лотосовыми престолами, ритуальными атрибутами или защитными божествами. Для каждого нового изображения Geo‑TCAM оценивает, какие темы наиболее релевантны, и смешивает эту информацию с визуальными признаками. Механизм внимания затем выделяет области изображения, которые лучше всего соответствуют вероятным темам. Фактически предварительные знания о том, какие объекты и символы обычно появляются вместе, подталкивают ИИ к более содержательным и культурно осознанным описаниям.

Позволяя ИИ «смотреть» туда, где это важнее всего

Третья инновация — модуль геометрически направленного пространственного внимания для лица (GFSA). В композициях танкх лицо главной фигуры обычно располагается в относительно предсказуемых зонах полотна. Geo‑TCAM использует простые средства обнаружения контуров, чтобы сфокусироваться на этой области и окружающих руках и позе, затем применяет специализированный механизм внимания, который усиливает влияние этих пикселей при формировании подписи. Эта стратегия «сначала найти, потом направить» помогает предотвратить раннюю неверную идентификацию центрального божества, которая в противном случае может привести к цепочке текстовых ошибок о жестах, атрибутах и статусе. Визуальные тепловые карты показывают, что с GFSA модель сосредотачивается более чётко на лице главной фигуры и ключевых объектах, при этом сохраняя внимание к важным фоновым мотивам.

Насколько хорошо работает Geo‑TCAM?

Чтобы проверить подход, авторы создали специализированный набор данных D‑Thangka из почти 4000 тщательно аннотированных изображений, каждое из которых имеет подробные экспертные описания. На этом наборе Geo‑TCAM явно превосходил несколько сильных систем для генерации подписей, включая популярную AoANet и крупные визуально-языковые модели. В зависимости от метрики его показатели улучшались примерно до 120% по сравнению с базовой линией, а люди-оценщики с большим отрывом предпочитали его подписи по точности, плавности и богатству деталей. Важно, что при оценке той же модели на стандартной коллекции повседневных фотографий (набор COCO) она оставалась конкурентоспособной с ведущими методами, демонстрируя, что её архитектура мощная, но при этом универсальная.

Что это означает для наследия и не только

Для неспециалистов главный вывод в том, что Geo‑TCAM может превращать визуально сложные танкхи в ясные, информативные повествования, которые подчёркивают, кто изображён, что эти фигуры делают и почему эти детали важны. Сочетая многоуровневый визуальный анализ, выученные темы из экспертных текстов и особое внимание к лицам и жестам, система делает подписи ближе к тому, как человеческие специалисты читают эти произведения. В долгосрочной перспективе такие инструменты могут поддерживать цифровые архивы, музейные гиды и образовательные платформы, делая эзотерическое религиозное искусство более доступным и помогая реставраторам и исследователям документировать и защищать хрупкие культурные ценности.

Цитирование: Zhong, P., Hu, W., Zhao, Y. et al. Geo-TCAM: a Thangka captioning method integrating topic modeling with geometry-guided spatial attention. npj Herit. Sci. 14, 87 (2026). https://doi.org/10.1038/s40494-026-02343-8

Ключевые слова: Подпись изображений танкх, ИИ для культурного наследия, визуальное внимание, тематическое моделирование, сохранение произведений искусства