Clear Sky Science · ja

化学空間の縁での分子深層学習

2026-04-22 · 一覧に戻る

より賢い薬の予測が重要な理由

現代の創薬では、膨大な化合物ライブラリをふるいにかけ、有望な候補を見つけるために人工知能がますます活用されています。しかし問題があります。多くの機械学習モデルは、訓練で見たものと非常によく似た分子にしかうまく機能しないのです。初めての作用機序を持つ可能性のある、より珍しい化合物を評価するよう求められると、これらのモデルは過度に自信を持って誤ることがあります。本研究は、モデルが不確かな判断をしているかどうかを見分ける新しい手法を示し、研究者が安心して未探索の化学空間へ踏み込めるようにします。

地図が尽きるとき

創薬の初期段階では、科学者は「ヒット」を探します。ヒットとは、病気と関連するタンパク質などの生物学的標的に作用する小分子です。実験室で何十億もの候補すべてを検査することは不可能なので、機械学習モデルは数百〜数千の既知化合物で訓練され、新しい候補のうちどれを試す価値があるかを予測します。しかし、これらのモデルは訓練データに似ていない分子に対して性能を落とす傾向があり、これを分布シフトと呼びます。既存の安全策は、既知領域の周りに厳格な境界を引いてより冒険的な分子を遮断するか、予測不確実性を推定しますが、真に新しいものを見たときには誤解を招くことがあります。

馴染みのなさの新しい感覚

著者らは、オートエンコーダーと呼ばれるタイプの深層学習に基づく別の戦略を提案します。彼らの「結合分子モデル」は同時に二つのタスクを学習します：分子が標的に対して活性であるかを予測することと、圧縮された内部コードから分子を再構築することです。モデルが特定の分子の再構築に苦労する場合、その分子は「馴染みがない」と判断されます。チームはこの再構築誤差を数値化し、馴染みのなさというスコアに変換します。このスコアは、その分子がモデルが実際に学習した化学パターンからどれだけ離れているかを反映します。重要なのは、このスコアが単純な手作りの類似性指標ではなく、モデル自身の化学に関する理解に基づいている点です。

化学空間の縁を試す

馴染みのなさがモデルの適用範囲外を検出できるかを調べるため、研究者らは異なる生物学的標的や特性を網羅する33のデータセットを集めました。クラスタリング手法を用いて各データセットを典型的な例と構造的により異なる例に分割し、よく研究された分子と新規分子の差を模倣しました。これらのベンチマーク全体で、分布外とタグ付けされた分子は一貫して高い馴染みのなさスコアを示しました。この効果は分子のサイズや複雑さといった自明な特徴では説明できませんでした。代わりに、馴染みのなさは分子の構造的なコアが訓練化合物のそれからどれだけ離れているかを緊密に追跡し、モデルが実際にその分子が「規格外」であるかを感知していることを確認しました。

不確実性だけでは見落とすもの

次にチームは馴染みのなさを、モデル不確実性や様々な化学的類似性の尺度など、一般的な予測信頼度の評価法と比較しました。馴染みのなさと不確実性の両方が分類器の性能と関連しており、どちらかの値が高いと予測精度は低下する傾向がありました。しかしこれら二つの指標は大部分で独立していました。馴染みのなさは構造的距離と性能の両方を捉えましたが、不確実性だけでは構造を十分に反映しないことが多く、特に分子が非常に異なる分布から来ている場合に顕著でした。100万を超える市販分子を用いた大規模な仮想スクリーニングでは、馴染みのなさは日常的な化合物と真正に新規な化合物を鋭く分けましたが、不確実性は両群の差をほとんど示しませんでした。

スクリーン結果から実験室へ

実用的な影響を示すため、研究者らは約18万の購入可能な分子を対象に前向きなスクリーニングを行い、疾患関連酵素であるPIM1とCDK1の阻害剤を探索しました。彼らは既存の控えめなデータセットで結合モデルを訓練し、予測活性、モデル不確実性、馴染みのなさの三要素を同時に用いて新規化合物をランク付けしました。生化学的アッセイでわずか60種の化合物を購入・試験した後、7つの低マイクロモルの活性を持つ化合物を発見しました。これらはすべて訓練化合物や典型的なキナーゼ阻害剤とは構造的に異なっていました。馴染みのなさが低いことを重視しつつ不確実性を許容する戦略が最も強いヒットを生む傾向があり、馴染みのなさに注意を払うことで、有望だが完全に異質ではない化学を探索する道筋を示せることが示唆されます。

将来の医薬にとっての意味

日常的な言い方をすれば、馴染みのなさスコアは化学のための機械学習モデルに、それが既知の範囲からどれだけ外挿しているかを示す組み込みの感覚を与えます。モデルの分子再構築能力にこの感覚を結び付けることで、この手法は化学的類似性と予測の信頼性の両方を同時に反映します。本研究は、この指標が標準的手法が見落とす分布シフトを明らかにし、仮想スクリーニングの優先順位付けを改善し、実験でも新規の化学物質を発見する助けになることを示しています。創薬者が広大でほとんど未踏の化学空間へますます踏み込む中で、馴染みのなさはどの大胆な予測を信じて実験に移すかを判断するための原理的な羅針盤を提供します。

引用: van Tilborg, D., Rossen, L. & Grisoni, F. Molecular deep learning at the edge of chemical space. Nat Mach Intell 8, 575–587 (2026). https://doi.org/10.1038/s42256-026-01216-w

キーワード: 分子機械学習, 医薬品創出, 化学空間, 分布外, 仮想スクリーニング