Clear Sky Science · ja
がんデータをObservational Medical Outcomes Partnership共通データモデルへ調和するプロセス
がんデータを統合することが重要な理由
がん診療では病院、レジストリ、検査室、患者アンケートなどから膨大な情報が生成されますが、これらの記録はしばしば互換性のない形式で保存されており互いに「会話」できません。本稿は、こうした散在したがん情報を単一で整然とした形式に変換し、治療パターン、生存、人口健康に関する研究でより信頼して活用できるようにするために研究者たちが設計した明確な段階的プロセスを説明します。
共有された全体像ではなく多くのデータの島
がんデータは特に詳細です。腫瘍の種類、病期、遺伝子マーカー、時間経過に伴う治療、合併症や副作用、アウトカムなどを記述し、電子医療記録、がん登録、保険請求、バイオバンク、アンケートなど多様な場所から得られます。各ソースが独自の構造や命名規則を用いるため、統合は困難で、欠落や意味の喪失を招きやすいのです。Observational Medical Outcomes Partnership共通データモデル(OMOP CDM)は医療データの共有構造を提供し、世界的に利用が拡大しています。しかし、がんデータをこのモデルに移行する手法に関する既存の指針は一般的なものにとどまり、現場のチームは各自でローカルな解決策を考案せざるを得ないことが多くありました。

先行プロジェクトが示すもの
著者らは、科学誌や国際的なデータサイエンスコミュニティの発表から抽出した、がんデータをOMOP形式に変換しようとした20件のプロジェクトをレビューしました。多くは特定治療のアウトカムを研究する患者レベルの研究、あるいは生存動向や疾病監視のような集団レベルの問いに焦点を当てていました。データソースとしてはがん登録や病院記録が最も一般的で、欧州の事例が多く、米大陸やアジアの例は少なめでした。多くのチームがソースデータの探索、マッピング設計、品質チェック、治療レジメンの導出にOMOPコミュニティの専門ツールを利用しましたが、作業の組織方法は大きく異なっていました。
繰り返し現れる主要な障害
これらのプロジェクト全体を通じて、三種類の問題が何度も浮上しました。第一に、出発点となるデータが散らかっているか不完全であること:重要な詳細が欠落しているか自由文で記載されているか複数のシステムに散在しており、複数ソースを組み合わせるには大規模なクレンジングと精査が必要でした。第二に、ローカルコードや記述をOMOPの標準用語にマッピングすることが難しい点:病期、バイオマーカー結果、複雑な薬剤併用など豊富ながん特有の情報には標準語彙が必ずしも十分に細分化されておらず、自由文やゲノムデータは追加のツールや専門家の関与を要しました。第三に、一度マッピングを構築しても静的ではない点:共通データモデル、語彙、ツールは急速に進化するため、チームは長期的にシステムを更新し続けるための計画を持つ必要がありました。
チームのための5段階ロードマップ
レビューのパターンとがんデータ専門家からのフィードバックをもとに、著者らは腫瘍学に特化した一般的な5段階の調和プロセスを抽出しました。第一の段階、開始(Initiation)は学際的チームの結成、研究目的の合意、ローカルルールの把握、OMOPエコシステムへの理解を含みます。要件分析(Requirement Analysis)はソースデータを深掘りします:どのようなデータが存在するか、どのように構造化されているか、完全性や信頼性はどうか、最大のリスクはどこにあるかを評価します。設計計画(Design Planning)はこの理解を、データをどのように変換・マッピングするか、使用するツール、治療コースなどのケアエピソードの扱い方、成功をどう評価するかといった詳細な計画に翻訳します。

生の記録から研究に使えるデータへ
第四の段階、技術的実装(Technical Implementation)は計画を実行に移します。ここでチームはデータをクレンジングし精査し、関連部分を抽出してOMOPのテーブルに変換し、体系的に品質をチェックします。各患者のがんの経過を時間軸で構築することに特に注意が払われ、診断、手技、薬剤曝露などの関連イベントと連結されたエピソードを表すOMOPテーブルを用いてタイムラインが作られます。第五の段階、保守(Maintenance)は作業が終わることはないことを認めます:語彙、ソフトウェアツール、腫瘍学の知見は変化するので、チームは更新のスケジュールを立て、新たな問題を監視し、マッピングや運用規約を洗練していく必要があります。全段階を支える二つの横断的原則は、テストと改善の反復サイクル、および意思決定を透明で再利用可能にするための慎重な文書化です。
患者と研究者にとっての意義
一般読者に向けた主なメッセージは、既存のがんデータをより良く活用するには新しい機器よりも情報を整理するための注意深く共有された手法が重要だということです。本稿は、各病院や研究グループがローカルルールや技術を尊重しつつ、散在するがん記録を共通フォーマットにまとめるために適用できる実践的なロードマップを提供します。センターや国を越えてデータを共同利用しやすくすることで、提案されたプロセスは日常診療における治療法や患者の転帰に関するより信頼できる研究を支え、臨床医や政策決定者がより明確で完全な情報に基づいて判断できるようにすることを目指します。
引用: Nada, I.P., Bonacina, S. Data harmonization processes of cancer data into the observational medical outcomes partnership common data model. Sci Rep 16, 15993 (2026). https://doi.org/10.1038/s41598-026-53570-9
キーワード: がんデータ, OMOP共通データモデル, データ調和, リアルワールドエビデンス, ヘルスインフォマティクス