Clear Sky Science · ru
CLOUD: масштабируемая и физически обоснованная базовая модель для представления кристаллов
Почему обучение на кристаллах важно
Мы живём в мире, построенном из кристаллов: чипы в наших телефонах, аккумуляторы в электромобилях и катализаторы для очистки выхлопных газов — всё это зависит от того, как атомы располагаются в повторяющихся узорах. Понимание того, как структура кристалла влияет на его свойства, является ключом к созданию лучших материалов, но расчёты этих свойств с помощью традиционных физических симуляций или лабораторных экспериментов медленные и дорогие. В этой статье представлен новый подход на базе ИИ, названный CLOUD, который обучается на миллионах известных кристаллов и базовых физических принципах, чтобы быстро предсказывать поведение новых кристаллических материалов.

Преобразование кристаллических структур в простые строки
Одна из основных проблем при обучении компьютеров работе с кристаллами — это способ описать трёхмерную атомную решётку в виде, удобном для модели. Вместо того чтобы подавать полные атомные координаты, авторы разработали компактное описание под названием SCOPE. Оно захватывает три ключевых компонента: общую симметрию кристалла, повторяющиеся наборы эквивалентных атомных позиций и то, какие элементы находятся в этих позициях, включая их относительные количества. Всё это выражено в короткой строке без координат. Такая строка сохраняет наиболее важную структурную информацию, оставаясь дешёвой в хранении и лёгкой для восприятия моделью в стиле языковой модели.
Языковая модель для материалов
Опираясь на SCOPE, авторы создают CLOUD — базовую модель на основе трансформера, схожую по духу с моделями для естественного языка. Вместо предложений из интернета CLOUD обучается на SCOPE-строках более чем шести миллионов кристаллов, собранных из публичных баз данных. В процессе предобучения модель многократно видит частичные строки с некоторыми скрытыми токенами и учится угадывать отсутствующие фрагменты, что заставляет её усвоить закономерности, связывающие симметрию, расположение позиций и состав. Затем сверху добавляют простой предсказательный слой, и модель дообучают на меньших размеченных наборах данных для предсказания конкретных свойств, таких как энергия образования, ширина запрещённой зоны, механическая жёсткость и диэлектрический отклик.
Точно, масштабируемо и широко применимо
При тестировании на стандартных бенчмарках по материалам CLOUD соперничает или превосходит многие существующие модели машинного обучения, включая те, что опираются на полные атомные координаты. Она особенно сильна в условиях нехватки данных или когда тестовые кристаллы отличаются от тех, что были в обучении — частая ситуация при открытии новых материалов. Модель также хорошо справляется со сложными или «нетипичными» структурами, содержащими дефекты, большие элементарные ячейки или низкоразмерные слои. Анализ внутренних механизмов внимания показывает, что модель естественно сосредотачивается на токенах симметрии в SCOPE, подтверждая, что она научилась использовать физически значимые подсказки. Авторы дополнительно изучают, как меняется производительность с увеличением размера модели и объёма обучающих данных, и находят, что CLOUD следует предсказуемым законам масштабирования, что указывает на возможность создания ещё более крупных и способных версий в будущем.

Сочетание ИИ с базовой физикой
Работа выходит за рамки чистого распознавания шаблонов, внедряя классическую физическую модель прямо в процесс обучения. Многие важные свойства, такие как теплоёмкость и внутренняя энергия, зависят от дальнодействующих колебаний атомов в кристалле и изменяются с температурой. Вместо того чтобы просить ИИ напрямую выдавать эти значения при одной температуре, авторы создают CLOUD-DEBYE: CLOUD обучают предсказывать промежуточную величину, называемую температурой Дебая, которая характеризует колебания кристалла, а это предсказание затем подаётся в стандартную формулу Дебая, дающую теплоёмкость и энергию как функцию температуры. Поскольку уравнения Дебая реализованы так, что через них проходят градиенты, вся цепочка может обучаться сквозным образом, используя лишь данные по теплоёмкости при одной температуре.
Что это значит для поиска новых материалов
CLOUD-DEBYE не только превосходит продвинутые графовые нейронные сети в предсказании свойств, связанных с колебаниями, но и даёт результаты, согласующиеся с термодинамическими законами в широком диапазоне температур, даже для материалов и температур, не встречавшихся в обучении. Это демонстрирует, что сочетание масштабного обучения на данных и проверенной физики может давать модели, которые одновременно точны и заслуживают доверия. На практике рамки CLOUD позволяют быстро просеивать огромное число гипотетических кристаллов, оценивать многие их свойства и делать это с соблюдением базовых физических ограничений. Это открывает путь к более быстрому и надёжному открытию и проектированию кристаллических материалов, лежащих в основе будущей электроники, энергетических технологий и конструкционных приложений.
Цитирование: Xu, C., Zhu, S. & Viswanathan, V. CLOUD: A Scalable and Physics-Informed Foundation Model for Crystal Representation Learning. Nat Commun 17, 4074 (2026). https://doi.org/10.1038/s41467-026-70467-3
Ключевые слова: машинное обучение для кристаллов, открытие материалов, базовые модели, представления с учётом симметрии, физически информированный ИИ