Clear Sky Science · ja

生物学と化学における大規模言語モデルに関するレビュー

2026-04-08 · 一覧に戻る

分子の言語をコンピュータに教える

現代の生物学と化学は、もはや人間が読み切れないほどのデータを生み出しています。本稿は、大型チャットボットにも使われるのと同種の大規模言語モデルが、DNA、タンパク質、低分子の「言語」を読み書きするためにどのように応用されているかを解説します。一般読者にとって魅力は明白です：これらのツールは、医薬品探索の高速化、疾患理解の向上、さらには実験計画や実験の実行を支援するコンピュータの実現を約束します。

言葉と文から遺伝子と分子へ

言語モデルはもともと文の次に来る単語を予測するために作られました。研究者たちは、タンパク質配列や分子の線形エンコーディングなど、多くの生物学的・化学的記録が文字列のように見えることに気づきました。自然言語のパターンを学べるAIは、遺伝子配列と細胞内での役割を結びつけるパターンや、化学式と物性を結びつけるパターンも学べる可能性があります。レビューでは、研究者が複雑な三次元分子や細胞を、AIが扱える一次元の文字列、グラフ、または点群に慎重に変換する方法を示しています。この設計段階は重要です。情報の表現方法が、モデルが学べることやどのような発見が可能かを制限するからです。

タンパク質、DNA、単一細胞の生命を読む

一つの主要な焦点は、生体系を扱う「生物学的言語モデル」です。タンパク質については、何百万もの配列で訓練されたモデルが、アミノ酸の直鎖がどのように三次元構造に折りたたまれるかを予測できるようになり、従来の手間のかかる実験手法に匹敵する成果を上げています。なかには、自然界に存在しなかった新しいタンパク質設計を提案し、医薬品や工業用酵素として機能する可能性があるものもあります。DNAやRNAでは、研究者は四つの塩基だけから成る長い文字列を扱えるように言語モデリングを適用し、ゲノムの制御領域を検出したり変異の影響を予測したりしています。細胞レベルでは、各細胞の遺伝子発現プロファイルを「単語」が遺伝子である文書のように扱う新しい手法が登場し、細胞型のクラスタリング、治療への応答予測、実験データと既存の生物学的知見の結び付けを可能にしています。

化学に独自のデジタル文法を与える

化学言語モデルは、医薬候補のような低分子の世界に取り組みます。ここでは化学者が構造を記述するためにコンパクトなテキスト風のコードを用い、それを文と同様に言語モデルに入力します。エンコーダ型モデルは理解に重点を置き、各分子の豊かな内部フィンガープリントを学習して溶解性や毒性などの性質を予測する助けになります。デコーダ型モデルは生成に重点を置き、望ましい特性に向けて逐次的に新しい分子を作り出します。一つの配列を別の配列に翻訳する組合せモデルは、反応の結果を予測したり目標化合物の合成法を提案したりするのに使われます。より高度なシステムでは、テキスト、2次元図、3次元形状、グラフを混ぜ合わせ、同じ化学を多様な記述法に跨って推論できるようにしています。

これらのモデルはどう学び向上するか

内部では、生化学的言語モデルは巧みな訓練手法に依存しています。多くは自己教師あり学習から始まり、入力の欠けた部分を推測させることで、人手のラベルなしに基礎構造を把握させます。マルチタスク学習により、単一のモデルが関連する多くの問題を同時に練習し、汎用的な能力を強化します。別の設計では、モデルが応答中に外部データベースを参照できるようにし、出力を実際の化学・生物学に根付かせて作り話を減らします。その後、薬の安全性予測や反応計画など特定のタスク向けに小規模な教師付き微調整が行われます。レビューはまた、新しいモデルが単にサイズが大きいだけでなく本当に優れているかを判断するための大規模な公開データセットとベンチマークも概観しています。

AI実験アシスタントと責任ある利用に向けて

単独のモデルを超えて、著者らは対話的な「エージェント型」システムへの移行を強調します。こうした仕組みでは、言語モデルが反応をチェックするプログラム、文献検索ツール、ラボロボットを制御するソフトウェアなどの専門ツールを呼び出し、それらの出力を連鎖させることができます。初期の実演では、こうしたエージェントが合成経路を提案したり実験を設計したり、自動化された実験室を操縦したりする様子が示されています。レビューは結論として、強固な安全対策、透明な評価、倫理と規制への慎重な配慮を伴えば、これらの生化学的言語モデルは科学の基盤的インフラになり得ると述べています。専門外の読者への鍵となるメッセージは、AIが生命と物質のコードを読み書きすることを学びつつあり、アイデアから医薬品、材料、あるいは生物学的洞察への道のりを短縮する可能性があるという点です。

引用: Ashyrmamatov, I., Gwak, S.J., Jin, SY. et al. A survey on large language models in biology and chemistry. Exp Mol Med 58, 970–980 (2026). https://doi.org/10.1038/s12276-025-01583-1

キーワード: 大規模言語モデル, 医薬品探索, タンパク質構造, 化学言語モデル, ゲノミクス