Clear Sky Science · ru

Снижение влияния ложных признаков с помощью контрастного обучения при распознавании осколков керамики

· Назад к списку

Почему разбитая посуда важна для современной науки

На первый взгляд груды битой посуды из 7‑тысячелетней деревни в южном Китае далеки от современной искусственной интуиции. Тем не менее эти фрагменты — ключ к пониманию быта неолита — и одновременно они выявляют скрытую уязвимость современных систем распознавания изображений. В этом исследовании используются передовые методы машинного обучения для сортировки древних осколков керамики Хэму-ду по типам, при этом решается проблема, актуальная для многих систем ИИ: склонность зацикливаться на вводящих в заблуждение визуальных «хитростях», вместо действительно значимых признаков.

Figure 1
Figure 1.

Древняя посуда и её скрытые истории

Археологический памятник Хэму-ду дал около 400 000 фрагментов керамики — настоящее богатство для реконструкции повседневной жизни, технологий и торговли в неолитическом южном Китае. На поселении преобладают два основных типа керамики. Песчаная керамика содержит частицы песка и гравия, из‑за чего она плотная, прочная и устойчива к нагреву. Древесно‑угольная (углеродистая) керамика содержит сгоревшие растительные включения, которые оставляют мелкие поры и следы пепла, делая сосуды легче и более гладкими. Археологи в основном классифицируют эти типы по текстуре поверхности и составу, а не по неправильной форме каждого отдельного осколка. Автоматизация этой классификации могла бы сэкономить огромные объёмы экспертного времени, но только если компьютер будет опираться на те же признаки, что и специалисты.

Когда ИИ усваивает неверный урок

Исследователи собрали тщательно контролируемую коллекцию изображений прямо на раскопе, сфотографировав 1864 осколка в светонепроницаемой палатке при постоянном освещении и на белом фоне. Удивительно, но ранние эксперименты показали, что стандартная глубокая сеть могла довольно успешно классифицировать керамику, опираясь только на формы фрагментов — достигая высокой точности на бинаризованных изображениях с контурами. Напротив, при обрезке краёв и сохранении только внутренней текстуры точность падала. Это означало, что модель нашла лёгкую, но ненадёжную хитрость: специфические формы поломок, которые археологи рассматривают как случайные последствия разрушения, а не как надёжные маркеры типа керамики. В терминах машинного обучения форма фрагмента выступала как «ложный признак» — закономерность, коррелирующая с меткой в наборе данных, но не связанная с истинной категорией.

Учим модель не обращать внимание на хитрость

Чтобы направить систему к более значимым признакам, команда разработала стратегию обучения на основе контрастного обучения — метода, который учит модель тому, какие изображения следует считать «похожими» или «отличными». Для каждой фотографии керамики они создавали версию с случайной обрезкой, при которой большая часть контура исчезала, а внутренняя поверхность оставалась. Обе версии пропускались через одну и ту же сеть извлечения признаков, и в процессе обучения их внутренние представления принуждались сближаться. Одновременно изображения разных типов керамики отталкивались друг от друга в пространстве признаков. Специализированная функция потерь «Triplet‑center» сжимала кластеры осколков одного класса и раздвигала кластеры песчаной и древесно‑угольной керамики, даже если их текстуры внешне были похожи.

Figure 2
Figure 2.

Стабилизация и повышение надёжности обучения

После формирования этого пространства признаков исследователи зафиксировали его и обучили простой классификатор поверх него. Чтобы избежать типичной ловушки переобучения — отличных результатов на обучающей выборке и плохих на новых образцах — они применили метод, называемый flooding. Вместо того чтобы стремиться свести ошибку обучения к нулю, flooding сознательно удерживает значение потерь на небольшом, ненулевом уровне, побуждая модель находить широкие, «плоские» области решений, которые лучше обобщаются. Также они проверили множество стандартных приёмов аугментации данных, таких как изменение цвета и размытие. Изменения, нарушающие информацию о текстуре, как правило, ухудшали результаты, тогда как преобразования, нарушающие форму — например, зеркальные по горизонтали отражения и тщательно подобранные случайные обрезки — помогали модели игнорировать вводящие в заблуждение контурные подсказки.

Что это значит для археологии и ИИ

Комбинация контрастного обучения, Triplet‑center loss и flooding позволила системе достичь 97,3% точности на наборе данных керамики Хэму-ду, превзойдя несколько известных моделей распознавания изображений. Метод также улучшил результаты на отдельном бенчмарке, где типы объектов появляются на новых, непривычных фонах, что указывает на его способность помогать многим системам компьютерного зрения противостоять ложным корреляциям. Для археологов такие инструменты обещают более быструю и согласованную сортировку огромных коллекций осколков, освобождая экспертов для интерпретации, а не рутинной разметки. Для неспециалиста вывод прост: заставляя ИИ смотреть дальше удобных, но ненадёжных «хитростей» — например, неровного контура разбитого горшка — мы можем создавать системы, которые видят мир ближе к тому, как его понимают человеческие эксперты.

Цитирование: Yu, X., Li, T., Song, Z. et al. Mitigating spurious features by contrastive learning in pottery sherd recognition. npj Herit. Sci. 14, 135 (2026). https://doi.org/10.1038/s40494-025-02170-3

Ключевые слова: керамика Хэму-ду, контрастное обучение, ложные корреляции, археологическая визуализация, классификация изображений