Clear Sky Science · ja

組成ベースの材料特性予測をクロスモーダル知識転移で強化する

· 一覧に戻る

材料挙動を推測する意義

新しい電池や太陽電池、より強い合金の設計は、多くの場合どの元素を混ぜるかを示す単純なレシピから始まる。そのレシピを、強度や導電性、安定性といった既知の特性を持つ実際の材料に変えるには、高価な量子計算や実験が通常必要だ。本研究は、もともとテキストを読むために作られた高性能な言語ベースのAIモデルが、さまざまな種類の材料データから学習し、化学式だけから重要な特性を直接予測できることを示し、膨大な候補化合物空間の探索にかかるコストと時間を削減する。

Figure 1. さまざまな種類のデータに共通する知識を用いて、化学の“レシピ”と材料の挙動をAIが結びつける方法。
Figure 1. さまざまな種類のデータに共通する知識を用いて、化学の“レシピ”と材料の挙動をAIが結びつける方法。

レシピから予測へ

材料科学で用いられる従来の機械学習手法は大きく二つに分かれる。一つは原子の三次元配列を記述する詳細な結晶構造を必要とし、高精度で特性を予測できるが計算コストが高い。もう一つは各元素の原子数のような全体的な化学式のみを扱い、安価だが通常は精度が低い。著者らの狙いはこの差を埋めることで、化学式だけを入力にしても構造を考慮する手法に匹敵する性能を発揮し、まだ合成されていない、あるいは構造モデル化されていない化合物の迅速なスクリーニングを可能にする点にある。

AIに材料の言語を教える

研究チームは化学言語モデルを基盤に構築している。化学式を文中の単語のようなトークン列として扱い、まずは式の欠落部分を埋める自己教師ありタスクで学習することで、どの元素がどの比率で結びつくかといった規則性を獲得する。さらに学習を熱力学的に安定な組成に偏らせることで、現実的な化学組成に重点を置くようにする。ここで重要な工夫が加わる。従来の言語モデルのようにテキストのみから学ぶのではなく、結晶構造、電子的挙動、電荷分布など複数の情報源からすでに学習したマルチモーダルな基盤モデルと整合させることで、言語モデルが式のみで動作しながらも豊かな構造的知識を継承するようにするのだ。

Figure 2. 式ベースのAIモデルが構造や電子に関するパターンを取り込み、材料特性を予測するしくみ。
Figure 2. 式ベースのAIモデルが構造や電子に関するパターンを取り込み、材料特性を予測するしくみ。

知識共有の二つの道筋

研究者らは暗黙的(implicit)と明示的(explicit)という補完的な二つの戦略を検討する。暗黙的な方法では、式ベースの言語モデルがマルチモーダル基盤モデルによって生み出される内部表現に合わせるように訓練され、構造や電子のパターンが組成とどのように結びつくかを静かに取り込む。一方、明示的な方法では大規模な生成モデルがまず各化学式に対してあり得る結晶構造を提案し、その後グラフニューラルネットワーク(原子のネットワークを扱うのに適した手法)がそれら構造から特性を予測する。この二段階の経路は、予測の前に失われた結晶情報を再構築しようとする試みである。

手法の性能

モデルは、太陽電池に関係するバンドギャップからせん断弾性率のような機械的特性まで、数十のターゲット量を含む二つの大規模ベンチマークで評価された。ほとんどのタスク、特に量子力学的計算に基づくデータセットにおいて、暗黙的転移モデルは従来の言語モデルより小さい予測誤差を示し、しばしば強力な構造ベース手法に匹敵する性能を発揮した。明示的転移のパイプラインも従来の組成ベース言語モデルより改善を示すが、結晶構造を生成する必要があるため速度面で劣る。特に多元素を含む組成では、これら構造を生成するのに直接の言語モデル予測より何十倍も時間がかかることがある。

ブラックボックスの内部を覗く

言語モデルが何を学んだのかを理解するために、著者らは入力の異なる部分が単独で、または組み合わせて予測特性にどのように影響するかを測るゲーム理論的解析を適用する。形状変化に対する抵抗性に関わるせん断弾性率を調べると、特定の元素や元素の組合せが値を強く上げたり下げたりすることが分かり、これはボライドやカーバイドのような既知の硬い化合物と一致する。化学式中の三トークンのパターンが馴染みのある結晶プロトタイプに結びつく例もあり、モデルが組成だけから暗黙的に構造モチーフを学んでいることを示唆する。

今後の材料探索への意味

総じて、本研究は異なる種類の材料データ間で知識を共有することが、化学式のみが与えられた状況でも特性予測を大幅に改善し得ることを示している。マルチモーダル基盤モデルによって言語モデルが導かれる暗黙的アプローチは、精度と速度の最良の組み合わせを提供し、新規化合物の大規模なバーチャルスクリーニングに有望である。結晶構造を再構築する明示的ルートも、構造生成器が改良されれば有力な選択肢を提供する。これらの手法は揃って、単一の結晶が育つ前の段階で広大な化学空間を迅速にふるい分け、有望な候補を浮き彫りにするAIツールへの道を示している。

引用: Rubtsov, I., Dudakov, I., Kuratov, Y. et al. Enhancing composition-based materials property prediction by cross-modal knowledge transfer. Sci Rep 16, 16434 (2026). https://doi.org/10.1038/s41598-026-53182-3

キーワード: マテリアルズインフォマティクス, 化学言語モデル, 特性予測, マルチモーダル学習, 結晶構造