Clear Sky Science · ru

Оптимизация междудоменного переноса для универсальных машинно-обучаемых межатомных потенциалов

· Назад к списку

Умные симуляции для реальных материалов

Проектирование новых аккумуляторов, катализаторов и электронных материалов всё в большей степени опирается на компьютерные симуляции, отслеживающие движение атомов. Самые надёжные симуляции, основанные на квантовой механике, чрезвычайно точны, но слишком медленны для перебора миллионов кандидатных материалов. Более быстрые модели на основе машинного обучения умеют аппроксимировать квантовые расчёты, однако часто работают только в узких условиях — например, либо для кристаллов, либо только для молекул. В этой работе предлагается способ построения одной универсальной модели, названной SevenNet-Omni, которая остаётся точной для многих типов материалов — от металлических поверхностей и молекулярных жидкостей до пористых каркасов — и при этом остаётся достаточно быстрой для масштабного поиска.

Figure 1
Figure 1.

Почему современные атомные модели плохо переносятся

Существующие машинно-обучаемые межатомные потенциалы обычно обучают на одной, тщательно подобранной базе данных: одной — для неорганических кристаллов, другой — для молекул, похожих на лекарственные препараты, третьей — для каталитических поверхностей. Каждая база создаётся с собственными настройками квантовой химии, поэтому энергетические ландшафты различаются тонкими, нелинейными способами. Простое объединение таких данных — например, путём сдвига или масштабирования энергий — добавляет шум и приводит к моделям, которые хорошо подходят для своего домена, но не справляются с незнакомой химией или слегка отличающимися квантовыми методами. По мере того как задачи материаловной науки всё чаще сочетают разные домены, например реакции молекул на твёрдых поверхностях в растворе, эта плохая переносимость становится серьёзным узким местом.

Общая основа с мягкой специализацией

Авторы решают эту проблему, рассматривая каждую базу данных как отдельную «задачу» внутри единой многозадачной нейросети. Внутри модели один набор параметров образует общую «спину» (backbone), улавливающую общие правила атомных связей, тогда как меньшие, специфичные для задач параметры уточняют поведение под конкретные датасеты. Математический анализ показывает: если части, специфичные для задач, становятся слишком большими, модель по сути запоминает каждую базу и теряет способность обобщать. Чтобы этого избежать, авторы применяют селективную регуляризацию: они напрямую штрафуют большие параметры, относящиеся к задачам, но оставляют общую «спину» свободно масштабироваться при необходимости. Это подтолкнуло сеть объяснять как можно больше через общую физику, используя лишь умеренные поправки для каждого домена.

Figure 2
Figure 2.

Соединяя далекие миры несколькими ключевыми примерами

Даже при регуляризации некоторые области химического пространства присутствуют только в одной базе, поэтому общая «спина» не получает там руководства. Чтобы исправить это, команда вводит «набор, мостящий домены». Они тщательно отбирают крошечную долю — порядка одной из тысячи — конфигураций из нескольких баз и пересчитывают их с использованием единой квантово-механической схемы. Эти мостовые структуры действуют как двуязычные фразы в учебнике: они напрямую связывают, как два разных квантовых метода описывают одну и ту же атомную ситуацию. Включённые в обучение, они сильно укрепляют связь между задачами, выравнивая энергетические ландшафты без необходимости пересчитывать всё заново. Систематические тесты показывают, что регуляризация и мостовой набор усиливают друг друга, улучшая результаты больше, чем каждое из средств по отдельности.

Создание и тестирование универсального атомного движка

Опираясь на эти идеи, авторы обучают SevenNet-Omni на 15 публичных наборах данных, включающих около 242 миллионов атомных конфигураций, охватывающих молекулы, кристаллы, катализаторы, металлоорганические каркасы и несколько уровней квантовой теории. Затем они тестируют модель в знакомых и сложных ситуациях: устойчивость кристаллов, границы зерен в металлах, дефекты в сталях, барьеры торсии в молекулах, похожих на лекарственные, гибридные органо‑неорганические перовскиты, адсорбция в пористых каркасах, актуальная для захвата углерода, и реакции на металлических поверхностях, важные для преобразования водорода и двуокиси углерода. Во многих тестах SevenNet-Omni либо сопоставим, либо превосходит специализированные модели, обученные для одного домена, и сохраняет «химическую точность» для многих энергий реакций и адсорбции. Он также точно воспроизводит результаты дорогого квантового метода (r²SCAN), научившись сопоставлять этот метод с более дешёвыми и распространёнными данными.

Что это означает для поиска новых материалов

Для неподготовленного читателя ключевая мысль такова: SevenNet-Omni ведёт себя подобно опытному учёному, работавшему во многих областях. Вместо переобучения на одну узкую задачу, он усваивает широкие химические принципы и гибко применяет их к новым ситуациям — от улавливания газов в пористых телах до реакций на металлических электродах. В работе показано, что это возможно при аккуратном совместном использовании информации между наборами данных с лёгким ограничением их различий и при добавлении небольшого числа тщательно отобранных «переводных» примеров между квантовыми методами. По мере появления всё более крупных и разнообразных баз данных такая стратегия обучения предлагает масштабируемый путь к по-настоящему универсальным и надёжным атомистическим моделям, способным ускорить открытия в химии, физике и материаловедении.

Цитирование: Kim, J., You, J., Park, Y. et al. Optimizing cross-domain transfer for universal machine learning interatomic potentials. Nat Commun 17, 3432 (2026). https://doi.org/10.1038/s41467-026-70195-8

Ключевые слова: машинно-обучаемые межатомные потенциалы, моделирование материалов в нескольких доменах, transfer learning, универсальный атомистический потенциал, открытие материалов