Clear Sky Science · ja

POLYT5: 生成的ポリマー設計のためのエンコーダ–デコーダ基盤化学言語モデル

· 一覧に戻る

プラスチックの言語をコンピュータに教える

携帯ケースや電源ケーブルから電気自動車のバッテリーに至るまで、プラスチックやその他のポリマーはあらゆるところに存在します。しかし、強度、柔軟性、電気的性質の適切な組み合わせを持つ新しいポリマーを発見するのは時間がかかり費用もかさみます。本稿はPOLYT5という人工知能システムを紹介します。POLYT5はポリマーの「言語」を学び、その性質を予測したり、有望な新材料を生成したりできるため、科学者が先端電子機器やエネルギー貯蔵向けの材料を迅速に設計するのに役立ちます。

Figure 1
Figure 1.

なぜ新しいポリマーは見つけにくいのか

新しいポリマーを設計することは、あり得るすべての文字列の中から有用な一文を探すようなものです。化学者は構成要素を変えて試験できますが、可能性の数は天文学的です。従来の機械学習は既知のポリマーの性質を予測するのに役立ってきましたが、これらの手法は手作りの数値記述子に依存することが多く、候補構造を人が推測して試す必要があります。汎用の大規模言語モデルは分子を生成できますが、信頼できる材料設計に必要な化学的「常識」が欠けていることがあり、紙上では合法的に見えても実際には非現実的だったり合成不可能な式を出すことがあります。

ポリマーに特化した語彙をAIに与える

POLYT5はこの課題に対し、一般的なテキストではなくポリマー構造に特化して言語モデルを訓練することで取り組みます。著者らは大規模な訓練セットを組み上げました:文献から得られた12,000以上の実在ポリマーに加え、化学者が使う確立された反応を用いて生成した1億以上の仮想ポリマーです。これらの構造を言語モデルに入力するため、各ポリマーを化学的に有効な分子を保証する堅牢な文字列表現に変換しました。繰り返し単位の終わりを示す特別なトークンや、簡単な性質情報を符号化するトークンも使われます。T5のエンコーダ–デコーダアーキテクチャを用い、POLYT5はこれらの文字列のマスクされた部分を再構築することを学び、共通の骨格や官能基などの繰り返し現れるパターンと、それらが材料特性とどう結びつくかを徐々に内部化します。

ポリマーを読むことから性質を予測することへ

この大規模訓練の後、POLYT5は実用的なタスク向けにファインチューニングされます。ある一連のモデルは主要なポリマー特性を予測します:ガラス転移温度(プラスチックが軟化する温度)、融点と分解温度、電子バンドギャップ、誘電率(どれだけ電気エネルギーを蓄えられるか)、およびさまざまな溶媒に溶けるかどうか。何千もの例にわたり、モデルの予測は既知の値とよく一致し、誤差は従来の機械学習手法と同等かそれより良好です。重要なのは、POLYT5が同一の表現で多様な特性を扱えるため、カスタム特徴量や各タスクごとの個別ツールの必要性を減らせる点です。

Figure 2
Figure 2.

モデルに新材料の発明をさせる

同じ枠組みは逆方向にも使えます:与えられたポリマーの性質を予測する代わりに、POLYT5は望ましい目標に合致するポリマー構造を生成できます。著者らは機械的・熱的安定性に重要なガラス転移温度に注目しました。モデルに例えば500ケルビンという目標値を与えると、その温度付近で軟化するはずの仮想ポリマーの文字列表現を生成するよう依頼します。研究チームはサンプリング設定が多様性と妥当性のバランスにどう影響するかを検討し、最終的に選んだ温度の周辺で化学的に整合する一方、既知のポリマーとは構造的に異なる600万以上の一意で妥当な候補を生成しました。

何百万の中からいくつかの逸品を見つける

実世界での効果を示すため、研究者たちはPOLYT5を高性能電気絶縁体やエネルギー貯蔵デバイス向けのポリマー探索に向けました。生成した何百万もの候補から、POLYT5自身の性質予測器を用いる多段階のデジタルフィルターを適用します。ポリマーは比較的高い誘電率を持ち、絶縁破壊を避けるための広い電子バンドギャップ、良好な熱安定性、および実用的な加工温度範囲を満たす必要があります。また、水やエタノールのような一般的で環境に優しい溶媒に溶け、標準的な化学反応で合成可能に見えることも条件です。この濾過で有望な候補は約1万8千に絞られ、その中から合成が比較的容易な1候補を選びます。実験的に合成して性質を測定したところ、実験結果はPOLYT5の予測とよく一致し、期待される誤差範囲内に収まりました。

先進的なポリマー設計を手の届くものにする

コアモデルに加え、著者らはユーザーが自然言語でPOLYT5とやり取りできる「エージェント的」なAIインターフェースを構築しました。汎用の言語モデルが「このポリマーの誘電率を予測して」や「エタノールに溶けて融点が高いポリマーを提案して」といった質問を解釈し、裏で適切なPOLYT5ツールに振り分けます。この仕組みは化学文字列形式やモデル選択の複雑さを隠蔽し、専門家と非専門家の両方に強力なポリマー設計機能を提供します。端的に言えば、POLYT5はAIにプラスチックの読み書きを教えることで、新しく高性能な材料の探索を大幅に加速し、計算機上の設計から実働デバイスへの道のりを短縮する可能性を示しています。

引用: Sahu, H., Xiong, W., Savit, A. et al. POLYT5: an encoder-decoder foundation chemical language model for generative polymer design. npj Artif. Intell. 2, 30 (2026). https://doi.org/10.1038/s44387-026-00087-1

キーワード: ポリマー設計, 化学言語モデル, 材料探索, 誘電ポリマー, 生成的AI