Clear Sky Science · ja

プロンプト駆動型大規模言語モデルによるRECIST腫瘍反応の自動分類

2026-05-27 · 一覧に戻る

がん患者にとってなぜ重要か

がん治療を受ける際、治療が効いているか、変更すべきか、中止できるかを判断するために医師は画像検査の報告に頼ります。これらの報告を読み取り要約する作業は時間がかかり、小さなミスが入り込みやすいことがあります。本研究は、テキストを理解する一種の人工知能である大規模言語モデルが、患者データを病院内に留めたまま、スキャン報告を標準的な反応カテゴリに振り分けることで医師を安全に支援できるかを検証しています。

医師は通常どのように腫瘍変化を追跡するか

腫瘍学では、治療に対する腫瘍の反応を確認するためにCT検査が日常的に使われます。医師はしばしばRECISTと呼ばれるルールセットを用い、完全奏効、部分奏効、疾病安定、進行、あるいは治療開始前のベースラインといったカテゴリに患者の状態を分類します。多くの病院で半構造化テンプレートが使われている一方、最終的な反応判定は自由記述で書かれることが多く、専門家が測定値を解釈して過去のスキャンと比較し、これらを標準カテゴリに訳す必要があり、この作業は面倒でときに一貫性を欠くことがあります。

Figure 1. 病院内で動作するオフラインAIがCT検査の報告を読み取り、医師向けに単純な腫瘍反応のカテゴリーに変換します。

研究者はコンピュータに何をさせたか

ドイツの大学病院のチームは、汎用の言語モデル（70億パラメータのLLaMA 3.3）が、局所データで追加学習を行わずに実際のがん患者のCT放射線レポートを読み、正しいRECISTカテゴリを付与できるかを試しました。モデルは病院のセキュアなインフラ内で完全にオフラインで動作させ、患者情報が機関外に出ないようにしました。モデルにレポートを見せる前に元の反応ラベルは削除しましたが、すべての測定値と参照値は残しておき、システムが現在の腫瘍サイズを以前のベースラインや最小記録サイズと比較できるようにしました。

AIを導くさまざまな方法

研究者らは、プロンプト戦略として知られる3種類の指示方法を試しました。ゼロショット方式では、モデルにレポートと5つのカテゴリのいずれかを出力する短い指示だけを与えました。フューショット方式では、レポートの例文と正しいカテゴリをいくつか見せてデモンストレーションで学習させました。チェーン・オブ・ソート方式では、最終カテゴリを述べる前に平易な言葉で段階的に推論を説明するようモデルに求め、複数の独立した推論実行の多数決で結論を出しました。142件の報告書にわたり、AIが人間の専門家と一致した頻度を正確度や標準的な分類指標で評価しました。

システムは人間の読影とどの程度一致したか

チェーン・オブ・ソート戦略が最も良い結果を示し、全体でおよそ5件中4件を正しく分類し、真陽性を検出する能力と誤検知を避けるバランスが最も高まりました。特に、しばしば混同される部分奏効と疾病安定の分離が得意で、完全奏効など稀な結果の性能も向上しました。ゼロショットプロンプトはすでに驚くほど良い結果を示し、場合によってはいくつか例を示すよりも優れており、指示の書き方が単に例を増やすよりも重要になり得ることを示唆しています。フューショットは扱いにくいカテゴリで助けになった一方で、提示した少数の例が実際の報告の多様性を完全に反映していない場合には新たな誤りを生むこともありました。

Figure 2. AIが放射線科レポートを段階的に解析して腫瘍の変化を推論し、いくつかの色分けされた反応結果のいずれかを割り当てます。

誤りと限界が示すもの

どのカテゴリを混同しやすいかを示す混同行列を検討すると、チェーン・オブ・ソート法は体系的な誤りが少なく、注意深い臨床的推論に似たパターンを示しました。しかし、テキストだけでは開始スキャンとその後の残存腫瘍が見られないスキャンを明確に区別できない境界状況ではモデルは依然苦戦しました。本研究は標準化テンプレートに従う単一機関の報告を用いており、書き方が緩い病院では結果が異なる可能性があります。本研究は一度に一つの報告に焦点を当て、複数回の受診にまたがる長期履歴はまだ組み込んでおらず、これは一部の臨床試験ルールでは必要です。

将来のがん医療にとっての意味

一般向けに言えば、テキストを読むAIは放射線科医がCT報告書の結論が数値や治療判断の根拠となるルールと一致しているかをダブルチェックするのを支援できる、ということが要点です。システムを完全にオフラインで運用することは患者プライバシーを保護しつつ、手作業の負担を軽減し不整合を浮き彫りにするスケーラブルなツールを提供します。著者らは、このようなモデルは臨床医を置き換えるのではなく支援すべきであり、より多くの病院で検証し人間によるレビューと統合する必要があると強調しています。慎重に開発すれば、この種のシステムは検査報告に記された内容が画像上の事実や治療の基準とより確実に一致するよう助ける可能性があります。

引用: Mergen, M., Busch, F., Sauter, A.P. et al. Automated RECIST tumor response classification through prompt-guided large language models. Sci Rep 16, 16433 (2026). https://doi.org/10.1038/s41598-026-54979-y

キーワード: 放射線科AI, 腫瘍反応, RECIST, 大規模言語モデル, 腫瘍学レポーティング