Clear Sky Science · ru
Набор данных и модели Open Molecular Crystals 2025 (OMC25)
Почему важны огромные наборы данных о кристаллах
Молекулярные кристаллы находятся в основе многих повседневных технологий — от лекарств и пигментов до гибкой электроники. Их поведение зависит не только от состава атомов, но и от того, как множество копий молекулы упакованы в твердом теле. Предсказать эту упаковку и её последствия чрезвычайно сложно и медленно: обычно требуются вычисления на основе квантовой механики с высокой вычислительной стоимостью. В этой статье представлен новый открытый набор данных Open Molecular Crystals 2025 (OMC25), который собирает десятки миллионов тщательно смоделированных структур молекулярных кристаллов. Он разработан, чтобы дать современным методам машинного обучения богатый опыт, необходимый для усвоения поведения этих кристаллов, с долгосрочной целью сделать проектирование кристаллов быстрее, дешевле и надежнее.

Огромная библиотека модельных кристаллов
Команда OMC25 поставила задачу создать обширную «площадку для обучения» для моделей, предсказывающих, как молекулярные кристаллы располагаются и насколько устойчивы такие расположения. Они собрали более 27 миллионов кристаллических структур, построенных примерно из 50 000 различных органических молекул. Каждый кристалл содержит только распространённые лёгкие элементы, такие как углерод, азот, кислород и несколько галогенов, и может иметь до 300 атомов в базовой повторяющейся ячейке. Для каждой структуры они фиксируют не только положения атомов, но и общую энергию кристалла, силы, действующие на каждый атом, и механические напряжения в единичной ячейке. Эти метки позволяют моделям машинного обучения связывать закономерности в расположении атомов с физическим поведением.
От случайной упаковки к реалистичным твёрдым телам
Чтобы наполнить эту библиотеку, авторы не ограничивались переносом известных экспериментальных структур. Вместо этого они использовали открытый инструмент для генерации множества вариантов упаковки молекулы в кристалле. Они варьировали число молекул в базовой ячейке и исследовали широкий спектр кристаллических симметрий. Для каждого кандидата они создавали как слабоупакованные, так и плотноупакованные версии, чтобы покрыть ситуации, далёкие от и близкие к реалистичным условиям. Затем они применяли высококачественный квантовый метод, учитывающий тонкие межмолекулярные притяжения, для релаксации каждой структуры — позволяли атомам смещаться шаг за шагом до тех пор, пока силы почти не исчезали. По ходу этих путей релаксации они отбирали множество промежуточных структур, фиксируя изменения кристалла по мере его перехода от грубой начальной конфигурации к вероятному физическому состоянию.

Тщательная фильтрация и богатое разнообразие
Поскольку случайные предположения могут приводить к нереалистичным ситуациям, команда применила строгие фильтры для очистки данных. Они удалили кадры, где энергии, силы или напряжения выходили за допустимые пределы, а также случаи, где молекулы распадались или сливались в химически неправдоподобные структуры. Они также проверяли, чтобы объёмы ячеек не менялись так резко, что базовые численные настройки становились бы ненадёжными. В результате получился набор данных, охватывающий огромное разнообразие химий и стилей упаковки при минимуме нефизических примеров. По сравнению с крупной экспериментальной базой кристаллов, OMC25 содержит более широкий разброс кристаллических симметрий и размеров элементарных ячеек, с преднамеренным переотбором некоторых типов упаковок, чтобы усложнить и обогатить обучение моделей машинного обучения.
Обучение компьютеров предсказывать кристаллы
Чтобы проверить полезность OMC25, авторы обучили несколько современных моделей машинного обучения, работающих непосредственно со структурой атомов. Эти модели учатся предсказывать энергию, силы и напряжение по положениям и идентичности атомов. При оценке на отложенных данных OMC25 они показали очень низкие ошибки предсказания, что свидетельствует о согласованности и информативности набора данных. Команда затем проверила модели на внешних тестах, таких как воспроизведение известных энергий и объёмов кристаллов и ранжирование различных кристаллических форм (полиморфов) одной и той же молекулы. Несмотря на то что модели обучались на данных, сгенерированных с использованием одного варианта квантового метода, они показали конкурентоспособные результаты на бенчмарках, основанных на несколько более продвинутых методах, и особенно хорошо справлялись с сравнением относительной устойчивости разных упаковок кристаллов.
Что это значит для будущих материалов
Для неспециалистов ключевая мысль такова: OMC25 предлагает большую, тщательно подобранную «площадку», где модели машинного обучения могут «практиковаться» на реалистичных молекулярных кристаллах. Вместо того чтобы запускать дорогостоящие квантовые расчёты с нуля для каждой новой предполагаемой структуры, исследователи всё чаще смогут полагаться на быстрые обученные модели, натренированные на OMC25, для первичного отбора и уточнения структур. Это может ускорить поиск лучших форм лекарств, более эффективной органической электроники и улучшенных специализированных материалов. Хотя набор данных фокусируется на определённой группе кристаллов и использует один уровень квантовой теории, он закладывает мощную основу. Предоставляя в открытом доступе как данные, так и примерные модели, авторы стремятся стимулировать более широкие усилия по прогнозированию и проектированию молекулярных кристаллов с той лёгкостью и скоростью, которые могут дать современные методы машинного обучения.
Цитирование: Gharakhanyan, V., Barroso-Luque, L., Yang, Y. et al. Open Molecular Crystals 2025 (OMC25) dataset and models. Sci Data 13, 354 (2026). https://doi.org/10.1038/s41597-026-06628-2
Ключевые слова: молекулярные кристаллы, потенциалы машинного обучения, база материалов, прогнозирование кристаллических структур, квантовая химия