Clear Sky Science · ja
物理化学的特徴融合と注意機構を備えた深層学習フレームワークによる抗糖尿病ペプチド候補のde novo生成とインシリコスクリーニング
なぜ糖尿病でより賢いペプチド設計が重要なのか
糖尿病は世界中で数億人に影響を及ぼしており、現行の薬はすべての患者に完璧に効くわけではありません。多くの治療は時間とともに効果が落ちたり、副作用を引き起こしたりします。有望な新しい選択肢の一つが、血糖を高精度で調節できる小さなタンパク質群、いわゆる抗糖尿病ペプチドです。しかし、実験室で新たなペプチド薬を見つけるのは遅くコストもかかります。本研究は、コンピュータ駆動のパイプラインを導入し、大量の潜在的抗糖尿病ペプチドを生成・選別して、実験的に検証すべき有望な候補を研究者に提示する方法を示します。
既知の糖尿病ペプチドから整った出発データへ
研究者らはまず、主にGLP-1のようなホルモンやDPP-IVのような酵素に影響を与えることが実験的に示された高品質なペプチド集合を編纂しました。これらが「陽性」例になります。次に、長さや組成、基本的な化学特性が陽性例と似ているが抗糖尿病活性が報告されていないペプチドを注意深く選んで対応する「陰性」集合を作成しました。モデルを類似配列でだますことを避けるため、配列類似性ツールを用いて、近縁なペプチドが訓練群とテスト群の両方に現れないようにしました。このホモロジーに配慮した分割により、システムは単に既知例を記憶するのではなく、本当に新しいパターンを認識できるかどうかで評価されます。

機械がペプチドを読めるように化学を符号化する
コンピュータにとってペプチドはアミノ酸を表す文字列にすぎません。これらの文字を生物学につなげるために、チームは各アミノ酸を5つの基本的化学特性に変換しました:疎水性(親水性・疎水性の度合い)、電荷、水素結合形成傾向、質量、そして芳香族環の有無です。これにより各ペプチドは配列の順序と化学的性質を捉えた小さな「画像」に変換されます。さらに全ペプチドの記述子(全体の電荷、平均疎水性、タンパク質への結合傾向に関連するBoman指数など)を追加しました。こうした特徴の組合せにより、モデルはアミノ酸の短いモチーフなどの局所的パターンと、ペプチドが体内でどのように振る舞うかに影響する全体的性質の双方を検討できます。
選択理由を説明する深層学習エンジン
パイプラインの中核はハイブリッドな深層学習モデルです。畳み込みニューラルネットワーク(CNN)はペプチド配列に沿って走査し、活性を持つペプチドに現れやすい短いモチーフを検出します。これは画像認識のフィルターに似ています。さらに注意(アテンション)層が配列中のどの位置が重要かを学習し、遠く離れた残基間の長距離関係を捉えます。この配列エンジンの出力は全体的な化学記述子と融合され、サポートベクターマシン、決定木、k近傍法、勾配ブースティング木などの標準的機械学習分類器に渡されます。OptimizedTPEと呼ばれる特殊な最適化法がそれらのハイパーパラメータを自動調整し、精度と過学習のリスクのバランスを取ります。アテンション機構は残基レベルの「重要度マップ」も提供し、どのペプチドのどの部分がモデルの判断に寄与しているかを研究者が理解するのに役立ちます。

データ漏洩を避けながら新しい候補を創出する
既知の抗糖尿病ペプチドの数が少ない問題を克服するため、チームは訓練プロセスにのみ供する生成段階を追加しました。ガイド付き変異、モチーフの組み替え、変分オートエンコーダーの組合せなど複数の戦略を用いて、既知の活性ペプチドに似ているが複製しない新しい配列を提案しました。これらの候補は現実的な電荷、サイズ、結合傾向を強制する厳格な「記述子ゲート」と、既知の生物活性ペプチドとの類似性を評価する外部ツールでスクリーニングされます。これらのフィルターを通過し、かつすべてのテストペプチドとは明確に異なる配列だけが訓練用の弱ラベル陽性として保持され、評価には一切使われません。このアプローチにより、テスト集合のクリーンで偏りのない状態を保ちながら訓練セットを拡張できます。
システムの性能とその意義
最新の文献から収集した実験的に検討された完全に独立した180配列のパネルで検証したところ、このフレームワークは約100配列中99配列を正しくラベル付けし、精度と再現率はいずれも約0.99でした。実務的には、真の抗糖尿病ペプチドを見逃すことがほとんどなく、非活性ペプチドを誤って有望とすることも稀であることを意味します。アテンションマップと変異テストの解析から、モデルが化学的に理にかなった規則を学習していることが示されました:陽性に帯電した残基や特定の疎水性残基に強く依存しており、これらは糖尿病関連標的への結合に重要であることが知られています。分子ドッキングシミュレーションは、生成された新しいペプチドの一部がヒトGLP-1受容体ともっともらしい相互接触を形成し得ることを示唆しました。これらの予測は実験による確認が依然必要ですが、本研究は膨大なペプチド薬の探索空間を再現可能かつ生物学的根拠に基づいて調査し、糖尿病管理に有望な少数の候補を優先する方法を示しています。
引用: Asl, Z.R., Rezaee, K., Ansari, M. et al. De novo generation and in silico screening of anti-diabetic peptide candidates via a deep learning–attention framework with physicochemical feature fusion. Sci Rep 16, 6580 (2026). https://doi.org/10.1038/s41598-026-39985-4
キーワード: 抗糖尿病ペプチド, 深層学習, 創薬, ペプチド設計, GLP-1受容体