Clear Sky Science · fr
Jeu de données et modèles Open Molecular Crystals 2025 (OMC25)
Pourquoi un volume de données cristallines important est crucial
Les cristaux moléculaires sont au cœur de nombreuses technologies courantes, des médicaments et pigments jusqu’aux composants électroniques flexibles. Leur comportement dépend non seulement des atomes qu’ils contiennent, mais aussi de la manière dont d’innombrables exemplaires d’une même molécule s’agencent dans un solide. Prédire cet empilement et ses conséquences est notoirement difficile et lent, exigeant généralement des calculs quantiques coûteux. Cet article présente un nouveau jeu de données ouvert, nommé Open Molecular Crystals 2025 (OMC25), qui rassemble des dizaines de millions de structures de cristaux moléculaires simulées avec soin. Il est conçu pour fournir aux méthodes modernes d’apprentissage automatique l’expérience riche dont elles ont besoin pour apprendre le comportement de ces cristaux, dans le but à long terme de rendre la conception cristalline plus rapide, moins coûteuse et plus fiable.

Une vaste bibliothèque de cristaux modèles
L’équipe OMC25 s’est donné pour objectif de constituer un « terrain d’entraînement » étendu pour les modèles informatiques qui prédisent comment les cristaux moléculaires s’organisent et la stabilité de ces arrangements. Ils ont rassemblé plus de 27 millions de structures cristallines construites à partir d’environ 50 000 molécules organiques différentes. Chaque cristal contient uniquement des éléments légers courants, comme le carbone, l’azote, l’oxygène et quelques halogènes, et peut compter jusqu’à 300 atomes dans son motif élémentaire. Pour chaque structure, ils enregistrent non seulement les positions des atomes, mais aussi l’énergie totale du cristal, les forces agissant sur chaque atome et la contrainte mécanique dans la maille. Ces étiquettes permettent aux modèles d’apprentissage automatique de relier des motifs dans les arrangements atomiques à des comportements physiques.
Des empilements aléatoires aux solides réalistes
Pour peupler cette bibliothèque, les auteurs n’ont pas simplement recopié des cristaux expérimentaux connus. Ils ont utilisé un outil open source pour générer de nombreuses manières dont une molécule peut s’empiler dans un cristal. Ils ont varié le nombre de molécules dans la maille élémentaire et exploré un large éventail de symétries cristallines. Pour chaque candidat, ils ont créé des versions à faible densité et à forte densité afin de couvrir des situations éloignées ou proches des conditions réalistes. Ils ont ensuite employé une méthode quantique de haute qualité, qui inclut les attractions subtiles entre molécules, pour relaxer chaque structure — laissant les atomes se déplacer pas à pas jusqu’à ce que les forces deviennent négligeables. Le long de ces trajectoires de relaxation, ils ont échantillonné de nombreuses structures intermédiaires, capturant comment un cristal évolue en se stabilisant d’une estimation grossière vers un arrangement physique probable.

Filtrage rigoureux et grande diversité
Parce que des hypothèses aléatoires peuvent produire des situations irréalistes, l’équipe a appliqué des filtres stricts pour assainir les données. Ils ont supprimé les trames où les énergies, forces ou contraintes étaient très aberrantes, ou où les molécules se fragmentaient ou fusionnaient de manière chimiquement déraisonnable. Ils ont aussi vérifié que les volumes de maille ne varient pas au point de rendre les paramètres numériques sous-jacents peu fiables. Le résultat est un jeu de données couvrant une très grande variété de chimies et de modes d’empilement tout en limitant au maximum les exemples non physiques. Comparé à une grande base de données expérimentale de cristaux, OMC25 présente une distribution plus large de symétries cristallines et de tailles de cellules unitaires, suréchantillonnant délibérément certains types d’arrangements pour mettre au défi et enrichir les modèles d’apprentissage automatique.
Apprendre aux ordinateurs à prédire les cristaux
Pour vérifier l’utilité réelle d’OMC25, les auteurs ont entraîné plusieurs modèles d’apprentissage automatique de pointe opérant directement sur des structures atomiques. Ces modèles apprennent à prédire l’énergie, les forces et la contrainte à partir des positions et des identités atomiques. Lorsqu’ils sont évalués sur des données OMC25 mises de côté, ils ont atteint des erreurs de prédiction très faibles, montrant que le jeu de données est cohérent et informatif. L’équipe a ensuite soumis les modèles à des tests externes, comme la reproduction d’énergies et de volumes cristallins connus et le classement de différentes formes cristallines (polymorphes) d’une même molécule. Bien qu’entraînés sur des données générées avec une certaine variante de méthode quantique, les modèles se sont montrés compétitifs sur des bancs d’essai basés sur des méthodes un peu plus avancées, et ils se sont révélés particulièrement performants pour comparer les stabilités relatives de différents empilements cristallins.
Ce que cela signifie pour les matériaux de demain
Pour les non-spécialistes, le message principal est qu’OMC25 offre un grand terrain d’entraînement soigneusement curaté où les modèles d’apprentissage automatique peuvent « s’entraîner » sur des cristaux moléculaires réalistes. Plutôt que d’exécuter des calculs quantiques exigeants à chaque nouvelle hypothèse de cristal, les chercheurs peuvent de plus en plus s’appuyer sur des modèles appris et rapides entraînés sur OMC25 pour filtrer et affiner les structures. Cela pourrait accélérer la recherche de formes pharmaceutiques meilleures, d’électroniques organiques plus efficaces et de matériaux spécialisés améliorés. Bien que le jeu de données se concentre sur une famille particulière de cristaux et utilise un niveau de théorie quantique donné, il établit une base puissante. En rendant à la fois les données et des modèles d’exemple accessibles en open source, les auteurs visent à catalyser des efforts plus larges pour prédire et concevoir des cristaux moléculaires avec la simplicité et la rapidité que l’apprentissage automatique moderne peut offrir.
Citation: Gharakhanyan, V., Barroso-Luque, L., Yang, Y. et al. Open Molecular Crystals 2025 (OMC25) dataset and models. Sci Data 13, 354 (2026). https://doi.org/10.1038/s41597-026-06628-2
Mots-clés: cristaux moléculaires, potentiels par apprentissage automatique, base de données de matériaux, prédiction de structure cristalline, chimie quantique