Clear Sky Science · ru

Многовидовая слияние изображений с использованием дистилляции знаний для классификации древних стеклянных бус, раскопанных в Японии

2026-01-17 · Назад к списку

Бусы как капсулы времени

В течение более тысячи лет крошечные стеклянные бусы перемещались по торговым путям от Средиземноморья и Индии до Японского архипелага. Сегодня эти цветные фрагменты — одни из наиболее распространённых находок при раскопках в Японии — обнаружено более 600 000 штук, — однако точное установление места их производства обычно требует медленных и дорогостоящих химических анализов и взгляда опытного специалиста. В этом исследовании задаётся простой, но мощный вопрос: могут ли обычные фотографии и современные методы ИИ заменить лабораторию, помогая археологам быстро и бережно отслеживать пути перемещения этих бус?

Почему древнее стекло имеет значение

Стеклянные бусы — это не просто украшения; они служат подсказками о дальних контактах по Евразии. Разные регионы использовали различные смеси исходных материалов и красителей, создавая химические «подписи», которые специалисты используют для группировки бус в семейства, связанные с местами происхождения, такими как Восточная Азия, Индия, Юго-Восточная Азия, Центральная Азия и Средиземноморье. Традиционная работа по установлению происхождения опирается на приборы, измеряющие химические компоненты, и на экспертов, которые изучают формы, цвета и следы производства под увеличением. Эти подходы раскрыли богатые истории древней торговли, но их трудно масштабировать на сотни тысяч хрупких предметов, хранящихся в музеях и хранилищах по всей Японии.

От лабораторных измерений к простым фотографиям

Чтобы преодолеть это узкое место, авторы исследуют метод, использующий только изображения бус. Вместо того чтобы растворять кусочек стекла для анализа, они фотографируют каждую бусину с двух ракурсов: вид сверху, который показывает отверстие в виде кольца и общие цветовые узоры, и боковой вид, который демонстрирует толщину и профиль. Это двойное наблюдение имитирует то, как эксперты обращаются с артефактами, поворачивая их в руках, чтобы уловить тонкие изменения текстуры поверхности и формы. Цель амбициозна: определить, способен ли компьютер, имея только эти фотографии, автоматически отнести каждую бусину к одной из 16 устоявшихся химических и региональных групп, которые археологи уже используют.

Обучение машин видеть как эксперты

Команда обращается к гибридной системе искусственного интеллекта под названием MidNet. Она сочетает две ведущие стратегии анализа изображений. Первая, известная как сверточная нейронная сеть, особенно хороша в выявлении мелких деталей, таких как крошечные впадины, полосы цвета или повреждения поверхности. Вторая, визуальный трансформер, предназначен для восприятия более общей картины — того, как цвета и формы соотносятся по всей бусине. MidNet обрабатывает оба ракурса (сверху и сбоку) через оба типа моделей и затем поощряет их «соглашаться» друг с другом. Во время обучения каждая модель учится не только на правильной метке, но и на предсказаниях партнёра и на информации из другого ракурса. Этот обмен сведениями снижает риск того, что система зафиксируется на особенностях конкретного ракурса или типа модели, а не на устойчивых визуальных признаках, связанных с происхождением.

Работа с неоднородными и несовершенными данными

Набор данных, лежащий в основе MidNet, состоит из 3434 изображений бус, классы которых были ранее установлены посредством тщательных экспертных исследований и химического анализа. Некоторые типы бус многочисленны, тогда как другие представлены лишь несколькими экземплярами — распространённая проблема в археологии. Чтобы предотвратить уклон системы в пользу самых распространённых классов, исследователи применили два приёма. Во-первых, они сгенерировали дополнительные тренировочные изображения для очень редких типов с помощью современной техники синтеза изображений, создавая правдоподобные вариации без непосредственного вмешательства в артефакты. Во-вторых, они сознательно искажали тренировочные фотографии — слегка меняли цвет, кадрировали или скрывали небольшие участки — чтобы сделать систему менее чувствительной к мелким повреждениям или различиям в освещении. Затем они оценивали производительность с помощью строгой процедуры кросс-валидации, чтобы понять, насколько метод обобщается на невидимые образцы.

Насколько хорошо работает система?

Когда исследователи сравнили гибридный MidNet с более стандартными моделями для изображений, они обнаружили, что использование обоих ракурсов всегда помогает, подтверждая, что два угла зрения захватывают дополняющие подсказки. По сырой точности MidNet сопоставим с лучшим конкурирующим методом с разницей всего в несколько бус из тысяч, но при этом демонстрирует наиболее стабильное поведение при разных разбиениях на тестовые наборы. Иными словами, его результаты менялись меньше от одного эксперимента к другому, что указывает на меньшую зависимость от того, какие конкретно бусины попали в обучающий набор — важное качество при работе с редкими типами артефактов. Метод по-прежнему испытывает трудности с некоторыми похожими категориями, которые даже специалистам сложно различить, что указывает на проблему «ультратонкозернистой» классификации, когда различия почти неразличимы на фотографиях.

Что это значит для будущих раскопок

Исследование демонстрирует, что тщательная фотография в сочетании с продвинутым анализом изображений могут надёжно оценить место производства многих древних стеклянных бус без вмешательства в их химию. Для археологов это открывает путь к быстрой, недорогой и неразрушающей сортировке больших коллекций, даже в полевых условиях или в небольших музеях без лабораторий. Хотя сложные случаи по-прежнему потребуют экспертной оценки и химических тестов, система вроде MidNet могла бы взять на себя основную часть рутинной классификации, выделять необычные объекты и поддерживать крупные цифровые архивы, отслеживающие движение стекла через континенты и столетия. Коротко говоря, работа показывает, как искусственный интеллект может помочь восстановить человеческую историю — по одной крошечной бусине за раз.

Цитирование: Fukuchi, T., Tamura, T. & Fukunaga, K. Multi-view image fusion using knowledge distillation for classification of ancient glass beads excavated in Japan. npj Herit. Sci. 14, 41 (2026). https://doi.org/10.1038/s40494-026-02305-0

Ключевые слова: археология, стеклянные бусы, машинное обучение, классификация по изображениям, культурное наследие