Clear Sky Science · ja
キュレートされたパンキャンサー・データセットと最適化ワークフローを用いた指標横断的タンパク質発現解析の実現
なぜがんのタンパク質比較はこんなに難しいのか
がん治療薬は複数の腫瘍タイプにまたがって同じ生物学的標的を狙うことが増えていますが、どの腫瘍でその標的が最も重要かを判断するのは容易ではありません。現在、米国国立がん研究所のCPTACのような大規模な公共プロジェクトは、何千もの腫瘍から詳細なタンパク質測定を生成しています。しかし、これらの測定は異なる施設で、異なる時期に、異なる手法的特性を伴って行われるため、「このタンパク質は肺がんで腎がんより高いか?」と単純に問うだけでは誤った結論に至ることがあります。本研究は、こうした複雑なタンパク質データを公平に比較できるように、実践的でデータ駆動型の方法でクリーン化、補完、整列する手法を示します。
がんタンパク質の共有マップを作る
著者らはCPTACのパンキャンサーコレクションから出発します:質量分析で測定された10種類のがんに由来する1,000例超の腫瘍および対応する正常組織。これらの実験はサンプルごとに何千ものタンパク質を捉えますが、すべての腫瘍で同じタンパク質が得られるわけではなく、コホート間で全体分布も一致しません。まずチームはすべての生データを単一の計算パイプラインで再処理し、すべてのコホートが一貫して扱われるようにしました。次に、1万を超える「頑健に発現している」コアタンパク質群に着目します。これらは十分な量で、少なくともあるがん種で欠測がまれなタンパク質であり、パッチワーク的なシグナルではなく安定した測定に基づいてがん間比較を行えるようにしています。

像を歪めずに欠測を埋める
慎重にタンパク質を選んでも、多くの値が依然として欠測しています。欠測には偶発的なもの(タイプミスのようなランダム欠測)と、検出限界を下回ったために生じるもの(左打ち切り)があり、すべての欠測を同じ扱いにするとバイアスが生じます。そこで著者らは「コホート・ハイブリッド」戦略を採用し、がん種ごとに異なる欠測パターンを区別して処理します。単に過小サンプリングされたように見えるタンパク質には類似サンプルから情報を借りて欠測値を推定し、検出不能として一貫して低く出ているタンパク質には左打ち切りデータ専用の手法を用いて値を機器の下限近くに配置します。この細やかなアプローチにより、人工的な差を作り出さずに現実的なタンパク質レベルの図を回復することをめざしています。
がん間で分布を比較可能にする
ギャップを埋めた後も別の問題が残ります:いくつかのコホートは全体として他より高いまたは変動の大きいタンパク質信号を示し、これは主にサンプル調製や機器校正といった技術的要因によるものです。これを是正するため、チームはタンパク質強度を絶対値に近い尺度に変換した上で、二つの正規化戦略を検討します。ひとつはグローバル・クオンタイル正規化で、すべてのサンプル(すべてのがん種と組織を含む)にわたってタンパク質値の全体分布を同一に強制します。もうひとつは“スムース”クオンタイル正規化で、がん種や組織内ではサンプルを調和させつつ、群間の違いは許容します。変動パターンの検討と多数の感度解析により、著者らはグローバル・クオンタイル正規化が意図しない技術的差を最もよく抑えつつ、腫瘍対正常などの意味のある生物学的コントラストを保持することを示します。

独立したRNAデータとの照合
クリーン化したタンパク質データセットががん種間で現実的に振る舞っているかを確かめるため、著者らはThe Cancer Genome AtlasのRNA測定データを参照します。がん種間でRNAと強く相関する少数のタンパク質群について、タンパク質発現とRNA発現で各腫瘍タイプの順位がどう一致するかを比較します。クロスキャンサー正規化が成功していれば、これらの順位は一致するはずです。実際、コホート・ハイブリッド補完とグローバル・クオンタイル正規化の組合せはタンパク質とRNAの順位一致を最も高め、未正規化データや代替の正規化法を上回りました。さらに、腫瘍と正常で変化するタンパク質や変化する細胞経路といった主要な生物学的シグナルが、フルワークフロー後も大筋で安定していることが追加の検証で示されます。
今後のがん研究にとっての意義
平たく言えば、本研究はノイジーで不均一なタンパク質測定の寄せ集めを、がん比較に使えるより信頼性の高い共通リファレンスに変えます。どのタンパク質を残すか、欠測をどう埋めるか、研究間で分布をどう揃えるかを慎重に決めることで、著者らは独立したRNAデータと整合し、腫瘍生物学を保持したパンキャンサー・プロテオミクス資源を作り上げました。この標準化されたデータセットと公開ワークフローは、多数の腫瘍タイプにわたる薬剤標的のランキング付け、がん選択的タンパク質の検出、新たな治療仮説の生成に役立ち、大規模データから実用的な腫瘍学の進展への道を加速するでしょう。
引用: Wang, J., Tian, X., Yu, W. et al. Enabling cross-indication protein expression analysis using a curated pan-cancer dataset and a tailored workflow. Sci Rep 16, 14623 (2026). https://doi.org/10.1038/s41598-026-44872-z
キーワード: パンキャンサー・プロテオミクス, タンパク質発現の正規化, CPTAC, 欠測データの補完, がん標的の探索