Clear Sky Science · ja
教師なし学習が高次元ヒトプロテオームデータで新たな疾患関連タンパク質を明らかにする
一見すると見落とされる血液の手がかり
血液には、私たちがまだ体調を崩す前の段階から体内で起きていることを静かに反映する多くのタンパク質が含まれています。医師はすでにいくつかのタンパク質を検査に利用していますが、現代の計測技術では同時に数千のタンパク質を測定できます。本研究は単純だが重要な問いを投げかけます:コンピュータに何を探すかを指示せず、この膨大な血中タンパク質の地図を自由に探索させたら、私たちが思いもよらなかった疾患との新たな関連を発見できるだろうか?
データに語らせる
多くの医療向けアルゴリズムは「健康」や「高血圧がある」といった明確なラベルで学習します。その手法は強力ですが、特に一人当たり数千の測定値がある場合には、予期せぬパターンを見落とすことがあります。本研究の著者らは逆のアプローチをとりました:彼らは「教師なし」学習を用い、誰がどの疾患を持つかを知らないまま、血中タンパク質パターンの類似性だけで参加者をグループ化しました。研究チームは大規模な資源であるUKバイオバンクを利用し、2,923種類のタンパク質について血液が測定された約53,000人の参加者に着目しました。目的は、この数値の海に自然に現れるグルーピングが実際の疾患と一致するか、そしてタンパク質の新たな候補を明らかにするかを確かめることでした。

潜在群を見つける二つの道筋
これほど豊富なデータを扱うには実務的な課題があります:測定値が欠けることがあり、タンパク質の数が多すぎて信号が埋もれてしまうことがあるからです。これに対処するため、著者らはDIRAM/CODと名付けた二本立ての枠組みを構築しました。一方の経路(DIRAM)は、欠測を避けるためにデータを切り分け、複雑性を二次元に縮約してから類似した人々の“濃密な島”を探します。もう一方(DIRCOD)はまず欠測値を丁寧に補完し、その後ネットワーク科学から借用したコミュニティ検出手法でグループを検出します。両経路は繰り返し洗練され、最終的に血中タンパク質の指紋が意味のある形で異なる55の明確なクラスタが得られました。
実際の疾患と対応するクラスタ
クラスタが定義されると、研究チームは年齢や性別、そして何より診断がそれらにどのように分布しているかを確認しました。特定のクラスタには臓器不全、移植、癌など重篤な状態が濃縮しており、これらのタンパク質シグネチャが重症患者の生物学を捉えていることを示唆しました。著者らは次にセリアック病(グルテン過敏性腸疾患)、高血圧、白血病の三つの状態に注目しました。これらの疾患が多く見られるクラスタで、どのタンパク質が異常に高いまたは低い傾向があるかを調べ、そうしたタンパク質と単純な閾値のみを使って疾患に富むグループを“再現”することで、これらのタンパク質パターンが疾患の確率を強く追跡することを示しました—これは参加者を全体から混ぜ合わせても成立しました。
新たなタンパク質候補と変わる関係性
このアプローチは既知の因子を確認するだけでなく、新たな候補を浮かび上がらせました。高血圧では UBE2L6、HNRNPUL1、BECN1 といったタンパク質が目立ち、これらはいずれも他の研究で血管や心臓の問題と関連づけられてきました。セリアック病では IGF2BP3 が特に重要であることが示され、腸のバリア維持に関する以前の示唆と合致し、NRXN3 や CACNB1 といった他の有望なタンパク質も挙がりました。白血病関連のクラスタでは LRCH4、WDR46、SERPINB1、NUB1 など複数のタンパク質が挙動の変化を示しました。これらは単に量が異なるだけでなく、互いの増減の連動の仕方が変わっており、がんや自己免疫疾患における体内制御系の再配線を示唆しています。

血液地図から未来の医療へ
多くのタンパク質を同時に理解するため、研究者たちはそれらを単一の「軸」に圧縮し、全体のパターン変化を要約しました。この軸に沿って、高血圧やセリアック病の確率は着実に上昇し、この傾向は解析を研究全体の参加者に拡大しても維持されました。専門外の読者にとっての結論は明快です:アルゴリズムに何千もの血中タンパク質に基づいて人々を自由に分類させることで、自然な健康関連グループを発見し、既知の疾患マーカーを確認し、新たなマーカーを見つけることができる。バイオバンクが数十万、さらに多くのタンパク質へと拡大するにつれ、この種の教師なし探索は医師が疾患を早期に検出し、なぜ一部の人が病気になり他がならないのかを理解し、将来の治療の新たな標的を示す助けとなる可能性があります。
引用: Bernard, E., Wang, Y., Chen, M. et al. Unsupervised learning reveals novel disease-associated proteins in high-dimensional human proteomic data. Sci Rep 16, 10185 (2026). https://doi.org/10.1038/s41598-026-41385-7
キーワード: 血中タンパク質, 教師なし学習, バイオマーカー, 精密医療, 疾病リスク