Clear Sky Science · ja
SEA CDM: クロスドメインのデータ統合と解析のための Study-Experiment-Assay 共通データモデルとデータベース
研究室データの整理が私たち全員にとって重要な理由
現代医療はワクチン試験や感染症研究からがんゲノミクスに至るまで、膨大な実験データによって支えられています。しかしこれらのデータはしばしば互換性のない形式で保存されており、研究者が結果を結び付けて重要なパターンを見出すこと、例えば誰がワクチンに最もよく反応するか、あるいはなぜ一部の人に副反応が出やすいのかを突き止めることを難しくしています。本稿は、多様な生物医療実験を整理・接続する新しい方法を述べ、研究者がより豊かな問いを立て、疾患の予防や治療に最終的に影響を与えるより迅速で信頼できる答えを得られるようにする仕組みを紹介します。
実験の共通言語
研究グループやデータベースは、非常に似た種類の作業をしていても、それぞれ独自の方法で研究を記述する傾向があります。あるデータベースはワクチン試験に焦点を当て、別のものは単一細胞の遺伝子発現に注目し、さらに別のものは臨床転帰を扱う、といった具合に、それぞれ異なるラベルや構造を使っています。Study–Experiment–Assay 共通データモデル(SEA CDM)は、こうした取り組みに対してシンプルな共通“文法”を提供します。任意の生物医学プロジェクトを、問いを立てる全体のスタディ(研究)、人や動物を対象に行われる実験、血液検査や遺伝子発現測定など結果を生み出すアッセイという三つの連結したステップに分解します。これらのステップの周辺では、誰(または何)が調べられたか、どのサンプルが採取されたか、どの処置が適用されたか、どの解析が行われたかといった主要要素も標準化されます。
オントロジー:ラベルを知識に変える
単に列見出しを揃えるだけでは不十分です。同じ概念が異なる場所で異なる名前で呼ばれることがあるからです。SEA CDM は体系的にキュレーションされた語彙、すなわちオントロジーに依拠して、「インフルエンザ予防接種」「三価不活化インフルエンザワクチン」「Fluzone」のような製品名が関連する概念として認識されるようにします。これらのオントロジーは医療・生物学用語の系統図のように構造化されています。SEA CDM は疾患、細胞型、ワクチンといった各変数にオントロジーの公式識別子を付与するため、コンピュータはその系統を自動的にたどって関連するすべての記録を見つけ、関係性を推論することさえ可能になります。たとえば短いクエリで、何百もの製品名の中から三価インフルエンザワクチンを使ったすべての研究を引き出せるため、単純なキーワードマッチを超えた強力なセマンティック検索が可能になります。
散在するファイルから接続されたデータベースへ
モデルを現実世界で検証するために、著者らは OSEAN という総称の下で一連のデータベースとツールを構築しました。彼らは三つの大規模な公開リソースを SEA CDM 構造に変換しました:免疫応答研究のメタデータを収める ImmPort、ワクチン研究を遺伝子発現データに結びつける VIGET、単一細胞測定に特化した CELLxGENE です。カスタムパイプラインを用いて、元の多数のテーブルやファイル形式を一貫した SEA CDM テーブルやグラフノードの集合に翻訳しました。これにより、千件以上の免疫関連研究、200万件を超えるサンプル、そしてワクチンや疾患、実験手法の多数の記述を、一つの整合したフレームワークに格納し、同じソフトウェアで検索できるようになりました。
統一データがワクチンと性差について明らかにすること
この統一システムを用いて、著者らは直接的な医療的関連性を持つ生物学的問いを立てました:異なるインフルエンザワクチンは女性と男性の免疫系をどのように刺激するのか。VIGET ベースの OSEAN データベースにクエリを投げ、「刺激された」遺伝子と見なすための単純なルールを適用することで、弱毒化生ワクチン(弱められたウイルスを含む)や不活化、いわゆる“死んだ”ワクチンのいずれかで接種後に活性が増加した何百もの遺伝子を同定しました。次にこれらの遺伝子が関与する経路を比較し、データを性別で分けました。注目すべきパターンの一つは好中球に関するものでした。好中球は毒性顆粒を放出して微生物を攻撃する白血球の一種で、TNF(主要な炎症性分子)を介したシグナル伝達が関わっています。ほとんどの群ではインフルエンザ接種は好中球の顆粒放出の兆候と関連していましたが、弱毒化生ワクチンを受けた女性ではこの署名が欠けていました。一方で、TNF 関連のシグナルはこれらの女性で特に顕著であり、同時期の男性群では見られませんでした。これらの所見は、好中球の挙動やワクチン応答が雄と雌で体系的に異なり得ることを示唆する動物研究と一致します。
将来の発見のためのエコシステム構築
著者らは、SEA CDM の真の力は生物医療データをより FAIR(発見可能、アクセス可能、相互運用可能、再利用可能)にすることにあると主張します。実験に共通の構造を与え、重要なラベルをすべて明確に定義されたオントロジー用語に紐付けることで、異なるソースのデータを組み合わせ、サンプルの扱いを追跡し、解析を再現することが格段に容易になります。インフルエンザの事例研究は、統一化されたデータベース上で比較的単純なクエリを実行するだけでも、ワクチン反応に関する微妙な性差パターンを明らかにし、投与量やワクチン選択に影響を及ぼし得ることを示しています。より多くのリソースがこの共通モデルと付随ツールを採用すれば、研究者は疾患や技術、集団を横断して手掛かりを結びつけ、断片化したデータセットを真の統合的なバイオデータエコシステムへと変えていくことができるでしょう。
引用: Huffman, A., Yeh, FY., Hur, J. et al. SEA CDM: Study-Experiment-Assay Common Data Model and Databases for Cross-Domain Data Integration and Analysis. Sci Data 13, 238 (2026). https://doi.org/10.1038/s41597-026-06558-z
キーワード: データ統合, 生物医学オントロジー, ワクチン応答, 性差, 知識グラフ