Clear Sky Science · ja

インテリジェントな手術室向けの専門化されたファウンデーションモデル

· 一覧に戻る

手術室でのより賢い支援

現代の手術は、人、ロボット、カメラ、モニターがミスなく連携しなければならない、機器がひしめくハイテクな場で行われます。本稿は、手術室向けに特化して設計された新しい人工知能、ORQAを紹介します。言葉や単純な画像のやり取りに強い一般的なチャットボットとは異なり、ORQAは手術中に起きることを観察し、聞き取り、解釈するように構築されており、チームの支援、危険の検出、最終的には手術の安全性向上を目指します。

Figure 1
Figure 1.

なぜ現在のAIは手術で苦戦するか

世界を驚かせた多くのAIツールは、インターネット上の画像、動画、テキストで訓練されています。それらは医療用語の説明や一般的な手術の描写はできても、手術室の視覚情報はまったく異なります。複数のカメラが重なり合う視点を示し、ロボットアームが人に近接して動き、器具は小さく光を反射し、同時に多くの出来事が進行します。汎用のAIモデルは重要な点を見落としがちで、外科医がいることは認識しても特定の器具の所在を突き止められなかったり、ロボットの次の動作を予測できなかったり、無菌領域の侵害を見分けられないことがあります。著者らが市販モデルや強力なオープンソースモデルを含む主要な視覚言語システムを手術タスクで検証したところ、その性能は最も頻出する答えを基にした推測よりわずかに良い程度にとどまりました。

手術のワークフローを問答形式に変換する

機械による手術理解を体系的に測定・改善するために、研究者らはORQAベンチマークを作成しました。外部カメラ映像、術者装着カメラの動画、3Dシーン再構築、音声、ロボットログなどを含む実際の手術室とシミュレーションの4つの豊富なデータセットを組み合わせています。これらのソースから、手術室で何が起きているかに関する1億以上の問答ペアを生成しました。質問は、何人がいるか、どの器具が使われているか、どのような動作が進行中か、器具が3D空間のどこにあるか、無菌性の侵害が起きているか、次にロボットがどの動作を行うか、など23種類のタスクを網羅します。この巨大なプールをトレーニング用に100万件の多様な例と、テスト用の別セットに絞り込むことで、手術を理解すると主張するあらゆるAIモデルの共通の尺度を作り上げました。

手術室のために構築されたファウンデーションモデル

このベンチマークを用いて、チームは多様な手術データのストリームを融合する専門的なファウンデーションモデル、ORQAを訓練しました。映像フレーム、3D点群、音声、音声書き起こし、ロボットのテレメトリ、トラッキングデータなどはそれぞれ別個のエンコーダで処理され、共通の数値表現に変換されます。次に大規模言語モデルがこれらの結合された信号をもとにシーンに関する問いに答えます。ORQAベンチマーク上で、この領域に特化したシステムは汎用モデルに比べて性能を2倍以上に高め、行動認識、器具の位置特定、距離や役割に関する推論、安全性関連の確認など広範なタスクで成果を示しました。また、手術の進行状況を時間的に追跡するメモリ構造で拡張することもでき、より豊かな時間的モデリングからさらなる改善が期待されます。

Figure 2
Figure 2.

手術用AIを高速かつ実用的にする

強力なモデルはしばしば病院内でリアルタイム運用するには大きすぎます。病院の端末は小さく、プライバシーの観点からリモートサーバーへの接続が制限されることが多いためです。これに対処するために、著者らは蒸留と呼ばれるプロセスを用い、大きな“教師”モデルから小さな“生徒”モデルを学習させました。その結果、元の精度の大部分を保ちながら数倍高速に動作する3つのコンパクトなORQAバリアントを作成しました。これらの軽量モデルは単一のGPUやエッジデバイス上でローカルに動作でき、手術室内の複数のステーションを同時に監視できるため、機密性の高い患者データをクラウドへ送信する必要がなくなります。人や器具、相互作用のリストなど構造化された追跡可能な出力は、臨床医がシステムの挙動を検査、監査、信頼するのを容易にします。

将来の手術にとっての意義

簡潔に言えば、本研究は手術には一般的なウェブコンテンツではなく、実際の手術の映像や音声に直接訓練された独自のAIが必要であることを示しています。ORQAは、適切なマルチモーダルな手術データに触れさせることで、誰が何をしているか、器具がどこにあるか、手技がどのように進行しているか、そして何か安全上の懸念があるかを確実に追跡できることを実証しました。こうしたシステムが手術を直接指導できるようになるまでにはまだ多くの作業が残っていますが、ORQAとそのベンチマークは、より賢い支援、より良い記録、そして最終的にはより自律的で協調した手術室の基盤を提供します。

引用: Özsoy, E., Pellegrini, C., Bani-Harouni, D. et al. Specialized foundation models for intelligent operating rooms. npj Digit. Med. 9, 362 (2026). https://doi.org/10.1038/s41746-026-02631-4

キーワード: 手術用AI, 手術室, マルチモーダルモデル, 医療用ロボティクス, 患者の安全