Clear Sky Science · ja

英国スクリーニングプログラムにおけるマンモグラフィ機器間での乳がんリスク予測アルゴリズムの性能

· 一覧に戻る

女性と家族にとってなぜ重要か

乳がんスクリーニングは早期にがんを見つけて命を救いますが、それでも定期的なマンモグラムの間に腫瘍が現れることが多く、その場合は進行した状態で見つかることが少なくありません。本研究は単純だが重要な疑問を投げかけます:人工知能(AI)は「正常」と判定されたマンモグラムを読み取り、本当は短期的なリスクが高い女性を静かに示し、がんが大きくなり転移する前に追加検査を提供できるでしょうか?

Figure 1
Figure 1.

「正常」マンモグラムに潜む情報を可視化する

英国を含む多くの国のスクリーニングプログラムでは、女性に3年ごとのマンモグラム受診を勧めています。異常が見つからなければ「陰性」とされ、通常の生活に戻ります。しかし、スクリーニングを受けた女性の乳がんの約30%はスケジュールされた受診の合間に発生する「インターバルがん」で、予後が悪くなる傾向があります。近年、強力なAIシステムは人間の読影者には正常に見えるマンモグラムを解析し、各女性に短期的なリスクスコアを割り当てることを学んできました。この隠れた情報を用いて、検診の頻度を個別化したり、MRIや造影マンモグラフィのようなより感度の高い検査を誰に勧めるかを決めることが考えられます。

4つのAIツールの比較検証

研究者らは、2014~2017年の1回の3年周期を含む、英国内のNHS乳がん検診プログラムの2拠点から得られた112,621件の陰性スクリーニングマンモグラムを調べ、女性を5年間追跡しました。2拠点は異なるデジタルマンモグラフィ機器(PhilipsとGE)を使用しており、実世界での差異を反映しています。追跡期間中に1,225人が乳がんを発症し、そのうち396件がインターバルがんで、さらに次回検診で見つかったがんも含まれます。主要なAIリスクアルゴリズム4種(市販3種と学術モデル1種)を各マンモグラムでローカルに実行して将来のがんリスクスコアを生成し、その性能を比較しました。

将来のがんをどれだけ見抜けたか

4つのAIシステムはいずれも、がんを発症する女性とそうでない女性を偶然より高い精度で区別できましたが、性能は均一ではありませんでした。あるアルゴリズム(DL‑1と表示)は一貫して最も高い性能を示し、別のもの(DL‑3)は劣後しました。研究チームが「正常」判定の直後に現れるインターバルがんに絞ると、最良モデルは以前の単一アルゴリズム研究と同等かそれ以上の精度に達しました。重要な点は、4ツールのうち3つはPhilipsとGE両方の画像で類似した振る舞いを示し、少なくとも一部の撮影ハードウェアの差に対応できることを示唆していることです。ただし、1つのアルゴリズムはあるシステムで明らかに成績が落ちました。

高リスクスコアに基づき介入したらどうなるか

スクリーニングサービスにとって現実的な問いは、AIスコアに基づいて何人を再呼び出し(コールバック)するかです。研究者らは臨床的に意味のあるカットポイントを検討しました。各ツールのスコアで上位4%の高リスク女性のみを追加検査対象にした場合、上位2つのアルゴリズムは合わせて将来発生するがんのおよそ5分の1、インターバルがんの4分の1以上を捕捉しました。しきい値を上位14%まで緩めると—北米の一部プログラムで見られるリコール率に近い設定—検出率はほぼ倍増し、最も強いモデルは将来のがんの約42%、インターバルがんの約半数を識別しました。とはいえ、各アルゴリズムは部分的に異なるがんの集合を示す傾向があり重複は比較的少なく、複数アルゴリズムの組み合わせやマルチツール戦略が単独のモデルより多くの腫瘍を発見できる可能性を示唆しています。

Figure 2
Figure 2.

強み、欠点、今後の課題

本研究の特色は、限定的な研究用サンプルではなく、2つの大規模なNHSスクリーニングセンターの完全なルーチンデータを使用している点と、英国環境下で複数の既知のAIリスクツールを並列に評価した初めての研究である点です。一方で限界もあります。インプラントがある女性や非標準の撮影ビューは除外され、研究は2ブランドのマンモグラフィ機器に限られているため、他の装置や異なる人種・民族集団での性能は不確かです。解析がレトロスペクティブであるため、リスクに基づく追加画像検査が行われていれば早期に発見されていたかもしれないがんは含まれておらず、実際の利益は報告値より大きい可能性があります。

今後の乳がんスクリーニングへの示唆

非専門の読者にとっての結論は、現代のAIは確かに人の目には正常に見えるマンモグラムの中に、短期的に乳がんを発症しやすい女性を予測する警告サインを見出せるということです。特にインターバルがんのように早期発見が難しいケースに有効です。最も優れたアルゴリズムは、理論的には比較的小さな高リスク群に対してより頻繁または感度の高い検査を提供し、その他の人は標準の3年ごとの検診を続けるというスクリーニングの個別化を可能にします。しかし、ツール間や撮影システム間の差異は、どの単一AIモデルも慎重な検証なしに全域で採用できるわけではないことを示しています。著者らは、複数アルゴリズムを用いた大規模な前向き試験と、各地の撮影装置や集団に合わせた微調整を求めており、AI誘導のリスクベース乳がんスクリーニングが安全に日常診療となるためにはこれらが必要だと論じています。

引用: Rothwell, J., Payne, N., Kilburn-Toppin, F. et al. Performance of breast cancer risk prediction algorithms across mammography systems in the UK screening programme. npj Digit. Med. 9, 330 (2026). https://doi.org/10.1038/s41746-026-02507-7

キーワード: 乳がんスクリーニング, 人工知能, マンモグラフィ, リスク予測, インターバルがん