Clear Sky Science · ru

M3SFormer: многоступенчатый трансформер, объединяющий семантику и стиль, для инпейнтинга фресок

2026-01-28 · Назад к списку

Возвращая былую жизнь поблекшим настенным росписям

По храмам и пещерам Китая древние фрески и свитковые картины постепенно разрушаются — отслоившаяся краска, исчезнувшие лица и целые сцены, унесённые временем. Консерваторы всё чаще обращаются к цифровым инструментам, чтобы безопасно изучать эти работы и моделировать их первоначальный вид. В этой статье представлена M3SFormer — новая система искусственного интеллекта, разработанная специально для «инпейнтинга» повреждённых фресок и традиционных картин: она заполняет утраченные области, сохраняя оригинальную структуру, цвета и художественный стиль.

Почему старые фрески так трудно восстанавливать

Реставрация исторических настенных росписей заметно сложнее, чем «латание» домашней фотографии. Фрески часто содержат плотные орнаменты, тонкую работу кистью и резкие цветовые границы между фигурами, одеждой и фоном. Ранние методы глубокого обучения, особенно основанные на стандартных сверточных сетях, хорошо справляются с мелкими царапинами, но терпят неудачу, когда отсутствуют большие участки. Они могут размывать важные контуры, выдумывать формы, не сочетающиеся с окружающей композицией, или сглаживать драматические контрасты, придающие фрескам характер. Другие подходы чрезмерно сжимают информацию изображения, теряя именно те высокочастотные детали — тонкие трещины, едва заметные линии, текстуры тканей — которые наиболее важны для сохранения.

Трёхэтапный цифровой конвейер реставрации

M3SFormer решает эти задачи посредством многоступенчатого конвейера от грубого к детальному. Сначала шаг Global Structure Reasoning делит изображение на небольшие патчи и использует трансформер — модель, изначально разработанную для работы с языком — чтобы понять, как удалённые части фрески связаны друг с другом. Моделируя дальнобойные связи без обычных потерь информации при сильной квантзации, этот этап создаёт подробный глобальный план структуры росписи. Затем этап Semantic–Stylistic Consistency вводит два вида высокоуровневого руководства: сегментирует изображение на смысловые области (например, лица, одеяния или фон) и, с помощью предварительно обученной сети, изучает характерные текстуры и цвета каждой области. Наконец, этап Flow-Guided Refinement рассматривает реставрацию как постепенную эволюцию, используя обучаемое «поле скоростей», чтобы смещать начальную догадку в сторону визуально согласованного финала за множество небольших шагов.

Поддержание гармонии структуры и стиля

Ключевая идея работы — содержание и стиль нужно обрабатывать совместно, но не смешивать их. Семантический компонент модели, основанный на мощной системе сегментации Mask2Former, сообщает сети, где начинаются и заканчиваются разные элементы сцены. Поверх этого компонент стиля оценивает, насколько восстановленные области соответствуют оригиналу в каждой семантической зоне, используя многослойное сравнение характерных признаков (через матрицы Грама) на разных масштабах. Это позволяет системе по-разному обходиться с лицом фигуры, узорчатым одеянием или облачным небом, вместо применения единого глобального стильового правила, которое бы нивелировало локальные различия. На этапе уточнения семантические маски выступают в роли направляющих для поля течения, гарантируя, что заполненные пиксели эволюционируют таким образом, чтобы оставаться согласованными и по структуре, и по стилю.

Проверка метода на практике

Чтобы оценить работоспособность M3SFormer в реалистичных условиях, авторы собрали два больших набора данных: один — фрески из разных регионов Китая, другой — традиционные пейзажные картины. Они имитировали повреждения, используя маски, смоделированные по реальным трещинам и отсутствующим фрагментам, и сравнили свой метод с семью современными альтернативами, включая системы на основе трансформеров и диффузионные подходы. По стандартным метрикам качества изображения, структурного сходства и перцептивной реалистичности M3SFormer последовательно занимал лидирующие позиции, особенно когда повреждённая область была большой и сложной. Визуальные сравнения показывают, что он избегает размытий, странных цветовых пятен и шумных «пятнышек», характерных для многих конкурентов, при этом работая с практической скоростью, подходящей для реального применения.

Ограничения, выводы и перспективы

Несмотря на сильные стороны, M3SFormer не является волшебным панацеей. При очень больших утраченных областях или чрезвычайно сложных орнаментах он всё ещё может «сфантазировать» детали, не соответствующие исторической реальности — важное предупреждение для консерваторов, которые должны чётко различать правдоподобную реконструкцию и спекуляцию. Авторы предлагают, чтобы будущие версии включали явные подсказки, такие как наброски или короткие текстовые описания, чтобы сдерживать воображение модели. Даже с этими оговорками подход предлагает мощный новый набор инструментов для музеев и исследователей: способ генерировать детальные, стилистически верные цифровые реконструкции, неинвазивно исследовать варианты реставрации «что если» и помогать сохранять хрупкие культурные сокровища для изучения и восхищения задолго после того, как оригинальные пигменты поблекнут.

Цитирование: Hu, Q., Ge, Q., Zhang, Y. et al. M3SFormer: multi-stage semantic and style-fused transformer for mural image inpainting. npj Herit. Sci. 14, 64 (2026). https://doi.org/10.1038/s40494-026-02325-w

Ключевые слова: цифровая реставрация фресок, восстановление изображений, культурное наследие, модели трансформеров, сохранение произведений искусства