Clear Sky Science · ja

分子表現学習のための多対一モーダル知識転移事前学習

· 一覧に戻る

より賢い薬剤コンピュータが重要な理由

新薬の設計は、分子を「理解」できるコンピュータにますます依存しています。これらのプログラムは薬分子をモデルが安全性、効力、あるいは有害な相互作用を予測するための数値に変換します。本稿はM2UMolという新しい訓練法を紹介します。これは、最も一般的な種類の分子データしか利用できない場合でもモデルがうまく機能するようにするもので、化学者や医師にとってより速く信頼できる支援をもたらす可能性があります。

Figure 1
Figure 1.

分子を多面的に見る

実際の薬関連情報はさまざまな形で存在します:原子の結合を平面的に示した図、三次元形状、薬の働きを説明する文章、どのタンパク質に結合するかといった長い生物学的特徴のリストなどです。既存の手法の多くはこれらの視点のうち一つだけを使うか、すべての視点が訓練中に各分子についてそろっていることを要求します。しかし実務では、ほぼ常に利用可能なのは簡易な二次元構造だけです。他の視点はしばしば欠けており、それが現在のマルチモーダル手法が多数の実世界分子から学習するのを妨げています。

一つの視点に多様な見方を教える

M2UMolは、分子の二次元グラフをハブとして扱い、その単一の視点が他の視点とどう関係するかを学習することでこの問題に取り組みます。事前学習中にシステムは、2Dグラフ、3D形状、テキスト要約、および生物学的特徴リストを1万1千を超える薬様分子について読み込みます。各データ型に対して個別のエンコーダを用い、次に「アダプタ」を訓練して2Dグラフだけから3Dやテキスト、生物学的パターンがどうあるべきかを生成します。コントラスト学習の段階では、生成されたパターンが利用可能な実際のパターンに近づくように促します。ある分子でいくつかの視点が欠けていてもこの学習は機能します。第二の訓練タスクでは、生成されたパターンがどのモダリティに属するかを当てさせることで、異なる種類の情報を区別して保持する手助けをします。

Figure 2
Figure 2.

2Dしか使えないときにマルチモーダル知識を活用する

M2UMolがこれらの関係を学習すると、2D構造のみが与えられる実用的なタスク、例えば毒性、疾病関連特性、薬物間相互作用の予測に適用できます。新しい分子ごとに、事前学習された2Dエンコーダがコア表現を生成し、アダプタが3D幾何、テキストベースの知識、生物学的文脈を模した三つの「想像された」バージョンを生成します。簡単なアテンションモジュールがこれら四つの視点を結合して、タスク固有の予測器が使う最終的なフィンガープリントを作ります。これにより、ユーザーが標準的な2D構造だけを提供すれば、モデルはあたかも豊富なマルチモーダル情報を持っているかのように振る舞えます。

より少ないデータでより良い予測と明瞭な推論

幅広いベンチマークにおいて、M2UMolは単一視点モデルや既存のマルチモーダルモデルの両方を上回り、分子特性や薬物間・薬物–標的相互作用のような複雑なタスクで優れた性能を示します。しかも事前学習に用いる分子は1万1千強と少なく、計算資源も控えめであるのに対し、多くの競合手法は何百万ものデータを必要とします。可視化による分析では、学習した表現がクラス間でよく分離され、かつ均等に広がっていることが示されており、情報量が高いことの指標です。モデルはまた、意思決定を促す特定の原子や結合をハイライトでき、それらはしばしば毒性や受容体での活性、薬物間の問題ある相互作用に関与する既知の官能基と一致します。

将来の医薬にとっての意義

専門外の方向けに言えば、重要なのはM2UMolが分子の単純な線描(2D図)を、三つの追加の豊かな科学的文脈を持つかのように扱うことを学ぶ点です。このトリックにより、詳細な実験データが利用できない場合でも、薬がどのように振る舞うかについてより強力で説明可能な予測が可能になります。効率的でオープンソースかつ使いやすくパッケージ化されているため、このアプローチは研究者が化合物をより賢明にスクリーニングし、なぜある薬が失敗するかを理解し、最終的にはより少ない驚きで新薬を設計する手助けになる可能性があります。

引用: Xiong, Z., Wang, Z., Huang, F. et al. Multi-to-uni modal knowledge transfer pre-training for molecular representation learning. Nat Commun 17, 3797 (2026). https://doi.org/10.1038/s41467-026-69302-6

キーワード: 創薬, 分子表現学習, マルチモーダルAI, 薬物相互作用, 計算化学