Clear Sky Science · ja
クラウド(CLOUD):結晶表現学習のためのスケーラブルで物理知識を取り入れた基盤モデル
結晶から学ぶことが重要な理由
私たちの世界は結晶で構成されています:スマートフォンのチップ、電気自動車のバッテリー、排ガスを浄化する触媒などはすべて、原子が繰り返し並ぶ配列に依存します。結晶の構造がそのふるまいにどう影響するかを知ることは、より優れた材料を発明するうえで重要ですが、従来の物理シミュレーションや実験ではその計算は遅く高コストです。本論文は、既知の数百万件の結晶データと基本的な物理原則から学習して、新しい結晶材料の挙動を迅速に予測する新しいAI手法「CLOUD」を紹介します。

結晶構造をシンプルな文字列に変換する
コンピュータに結晶を教える際の大きな課題は、三次元の原子配列をモデルが効率的に扱える形で表現することです。著者らは全ての原子座標を入力する代わりに、SCOPEと呼ばれるコンパクトな記述を設計しました。これは結晶の全体的な対称性、等価な原子サイトの繰り返し集合、どの元素がどこに存在するか(およびその相対的な割合)という三つの重要要素を捉えます。これらは座標を用いない短い文字列として表現されます。この文字列は、最も重要な構造情報を保持しつつ、保存が安価で言語スタイルのAIモデルが読み取りやすい形式になっています。
材料のための言語モデル
SCOPEを基にして、著者らはCLOUDというトランスフォーマーベースの基盤モデルを作成しました。これは自然言語で使われるモデルと精神的に似ていますが、インターネット上の文から学ぶ代わりに、公開データベースから集めた600万件以上の結晶のSCOPE文字列で学習されます。事前学習では、モデルに部分的に隠されたトークンを繰り返し見せ、欠けている部分を予測させることで、対称性、サイト配置、組成を結び付けるパターンを内部化させます。その後、単純な予測層を追加して、形成エネルギー、バンドギャップ、機械的剛性、誘電応答など特定の物性を予測するために小さなラベル付きデータセットで微調整します。
高精度でスケーラブル、幅広い応用性
標準的な材料ベンチマークで評価すると、CLOUDは全原子座標を使う既存の機械学習モデルと同等かそれ以上の性能を発揮します。特にデータが乏しい場合や、テスト対象の結晶が訓練時に見たものと異なる場合(材料探索ではよく起きる状況)に強みを示します。欠陥を含む構造、大きな単位格子、低次元層などのより複雑または「非定型」な構造に対しても良好に機能します。モデル内部のアテンション解析から、SCOPEの対称性トークンに自然と注目していることが示され、物理的に意味のある手がかりを利用することを学んでいることが確認されます。さらに、モデルサイズや訓練データを増やすと性能がどのように向上するかを調べたところ、CLOUDは予測可能なスケーリング則に従うことが分かり、将来的にさらに大規模で高性能なバージョンを構築できる可能性を示唆しています。

AIと基本物理の融合
本研究は純粋なパターン認識を超え、古典的な物理モデルを学習プロセスに直接組み込んでいます。熱容量や内部エネルギーなど多くの重要な物性は、結晶中の長距離振動に依存し温度によって変化します。AIに単一温度でこれらの値を直接出力させるのではなく、著者らはCLOUD-DEBYEを作り、CLOUDが結晶の振動を特徴づける中間量であるデバイ温度を予測するように訓練し、その予測を標準的なデバイ式に入力して温度の関数としての熱容量やエネルギーを算出します。デバイの式は勾配が通る形で実装されているため、全体のパイプラインは単一温度の熱容量データだけで終端的に(end-to-end)訓練することが可能です。
新材料発見への意味
CLOUD-DEBYEは振動に関連する物性の予測で高度なグラフベースのニューラルネットワークを上回るだけでなく、訓練で見たことのない材料や温度範囲に対しても熱力学的規則を満たす結果を広い温度領域で示します。これは大規模なデータ駆動学習と確立された物理を組み合わせることで、精度と信頼性を兼ね備えたモデルが得られることを示しています。実用面では、CLOUDフレームワークは膨大な数の仮想結晶を迅速にスクリーニングし、多くの物性を推定しつつ基本的な物理的制約を尊重することができるため、電子機器、エネルギー技術、構造用途を支える結晶材料のより速く信頼できる発見・設計への道を開きます。
引用: Xu, C., Zhu, S. & Viswanathan, V. CLOUD: A Scalable and Physics-Informed Foundation Model for Crystal Representation Learning. Nat Commun 17, 4074 (2026). https://doi.org/10.1038/s41467-026-70467-3
キーワード: 結晶機械学習, 材料探索, 基盤モデル, 対称性に配慮した表現, 物理を取り入れたAI