Clear Sky Science · ja

乳がん検診におけるAIの診断精度、公平性および臨床導入:多施設後ろ向きおよび前向き技術的実現可能性研究の結果

· 一覧に戻る

日常の女性のためのより賢い検診

乳がん検診は命を救いますが、医療体制に負担をかけ、がんを見逃したり、誤って不安を与える偽陽性を引き起こしたりすることもあります。本研究は重大な含意を持つ単純な問いを投げかけます。人工知能(AI)プログラムは、英国内の国民検診制度でマンモグラムの読影を安全に支援し、危険性の高いがんをより多く検出しつつ、多忙な専門家の負担を軽減し、かつ異なる背景の女性に対して公平に働くことができるか?

Figure 1
Figure 1.

現在の検診の仕組み

英国を含む多くの国では、50~70歳の女性が定期的なマンモグラフィー検診に招待されます。英国では各スキャンは通常2人の専門家が独立して読影し、意見が分かれた場合はパネルで検討されます。この二重読影システムは安全性を意図していますが、時間を要し、十分な訓練を受けた読影者が必要という点に依存しており、多くの医療制度で問題となっています。従来のコンピュータ支援ツールは限定的な助けにとどまり、時に雑音を増やすこともあったため、保健当局は最新のAIを全国制度に導入する前に強固な新たな証拠を求めてきました。

実際の診療現場でAIを試す

研究者たちは英国国民保健サービス(NHS)において、グーグルの改良版マンモグラフィーAIを2段階で評価しました。まず、5つの地域から過去の検診約11万6,000件を対象にシステムを実行し、女性を3年以上追跡して実際に発生したがんを確認しました。その上で、AIの性能を第1読影者、第2読影者、最終パネル決定と比較しました。第2段階では、AIを12の検診拠点に事前告知せずに導入し、9,000件超の新規検査を実時間で処理させ—診療には影響を与えずに—日常診療での挙動と、設定の調整がどのように必要かを観察しました。

AIが見たもの―そして検出したもの

大規模な後ろ向きデータセット全体で、AIは第1読影者より感度が高く、偽陽性率を事前に定めた安全マージン内に維持しながら全体のがんをより多く検出しました。二重読影ワークフローの一方の読影者としてAIを用いた場合、がん検出率は約1,000人あたり7.5件から9.3件に上昇し、当初見逃されて後に(スクリーニング間あるいは次回の定期受診で)発見されたがんの4分の1を正しく指摘しました。初回検診の女性での利得は特に大きく、初回は通常、前回画像がないため解釈が最も難しい群です。これら初回受診では、AIは呼び戻しする女性の数を減らしつつ、致命性の高い浸潤性腫瘍を含めて若干多くのがんを検出しました。

公平性、作業負荷、実運用の障壁

研究チームは、AIが異なる女性のグループに対して公平に扱っているかを注意深く検討しました。年齢、乳房密度、社会経済的地位、および利用可能な限られた民族データにわたって、有害なバイアスの一貫した兆候は見られませんでした:感度と特異度は人間の読影者と比較して狭い範囲に収まっていましたが、非常に小さなサブグループでは不確実性が大きいこともありました。彼らはまた、AIを第2読影者として用いる場合の作業量の再構成をモデル化しました。パネル審査前の人間による読影数はほぼ半分に減少し、読影者の時間は約3分の1削減される可能性がある一方で、パネルにエスカレーションされる症例は増えると予測されました。実運用の実現可能性段階では、AIは数分で結果を出し—通常の人間読影よりはるかに迅速でした—が、最近の画像が古い学習データと比べて見た目に変化していることが判明しました。当初設定した動作閾値は過敏すぎて呼び戻し率が高くなり、現地の新しいデータで下方に再調整する必要がありました。

Figure 2
Figure 2.

AI対応の検診システムを構築する

精度以外にも、本研究は安全な導入に向けた実務上の障壁を明らかにしました。多くの検診センターは依然として紙のフォームや、AIの結果を自動保存したり検査が呼び戻された理由を説明したりすることができない古いソフトウェアに頼っていますが、これらは規制当局や臨床医が求める機能です。著者らは、完全なデジタル化、標準化されたワークフロー、そして人口統計データのより良い収集が、時間を通じた性能と公平性の監視に不可欠であると主張しています。また、AIの閾値は「設定して忘れる」ことはできないと強調します:画像機器、読影者の行動、母集団の構成は変化するため、システムは継続的に点検・調整される必要があり、明確な国レベルの規則と技術支援が必要です。

患者にとっての意味

この研究結果は、慎重に導入されたAIシステムが、特に初めてマンモグラフィーを受ける女性において、より重篤ながんを早期に見つけるのを助けるとともに、過重な負担を負う専門家の作業負荷を軽減できることを示唆しています。しかし著者らは、成功は正確なアルゴリズムだけに依存しないと強調します。医療サービスは継続的な較正、ドリフトやバイアスに対する厳格な監視、ITインフラの更新、および既存の人間中心ワークフローへの慎重な統合を必要とします。こうした安全策が整えば、AIは新たなリスクを加えるブラックボックスではなく、検診の効率と公平性を共に高める信頼できる追加の読影者になり得ます。

引用: Kelly, C.J., Wilson, M., Warren, L.M. et al. Diagnostic accuracy, fairness and clinical implementation of AI for breast cancer screening: results of multicenter retrospective and prospective technical feasibility studies. Nat Cancer 7, 494–506 (2026). https://doi.org/10.1038/s43018-026-01127-0

キーワード: 乳がん検診, 医療用人工知能, マンモグラフィー, 医療の公平性, 臨床導入