Clear Sky Science · ja
口腔病理における意思決定支援ツールとしての大規模言語モデルの比較分析
口腔医学で賢いチャットボットが重要な理由
現在、多くの人が強力な人工知能をポケットに携え、数秒で質問に答える親しみやすいチャットボットとして利用しています。しかし、これらのツールは口腔内の病変が無害か重大な変化の始まりであるかを示す微細な組織変化を解釈する際に、安全に医師を支援できるでしょうか。本研究はまさにその点を問い、顕微鏡で観察された口腔組織の記述から疾患を診断する専門家を、4つの広く使われるチャットボットがどれだけ支援できるかを比較しました。

チャットボットを試験した方法
研究者らは、口腔および顎の生検で病理医が顕微鏡下に観察した内容を記した、実臨床の報告書102例を収集しました。これらの報告は、粘液で満たされた嚢胞や線維腫といった単純な問題から、口腔上皮異形成や扁平上皮癌といった潜在的にがん性の変化まで幅広い病変を含んでいます。各症例について、同一の報告文に年齢、性別、病変部位といった基本的な患者情報を付して、ChatGPT-4.0、推論重視のChatGPT o1-preview、LLaMA-3を基盤とするMeta AI、およびGoogleのGeminiという4つのチャットボットに入力しました。各チャットボットには主診断1件と考えられる代替診断3件を求め、臨床医が手早くセカンドオピニオンを求める状況を模倣しました。
人間の専門家と答えを比較する評価
2名の認定口腔病理医が独立して、そして合議のうえで各チャットボットの主たる提案を病院記録の元の診断と比較しました。彼らは回答を「明らかに誤り」「類似または部分的に正しい(たとえば複合診断の一部しか捉えていない、あるいは臨床的に同等の異なる表現を用いている場合)」「完全に正しい」の3群に分類しました。さらに、主診断を見逃したチャットボットが代替診断3件の中に正解を含んでいるかどうかも調べました。標準的な統計手法を用いて、各システムが専門家と一致した頻度を比較し、年齢や性別によって結果が変化するかどうかも検討しました。

どのチャットボットが専門家に最も近づいたか
推論重視のChatGPT o1-previewが最も信頼できる支援を示し、主診断が専門家と一致した割合は約3例に2例(68.6パーセント)でした。Meta AIがこれに続き(65.7パーセント)、ChatGPT-4.0は中程度の成績(59.8パーセント)、Geminiは約4分の1にとどまりました(27.5パーセント)。より厳密な一致基準で評価すると、ChatGPT o1-previewとMeta AIは口腔病理医と統計学的に「実質的(substantial)」な一致を示し、ChatGPT-4.0は「中等度(moderate)」、Geminiは「乏しい(poor)」一致を示しました。全モデルとも粘液嚢胞や線維腫のような一般的で定義のはっきりした良性病変では良好に機能し、口腔上皮異形成や稀な病変などのより扱いにくい状態では一貫して苦戦しました。
機械がまだ及ばない点
チャットボットが代替診断を3件提示できる場合でも、特にGeminiやMeta AIでは正しい診断を含められないことが多く見られました。研究はまた、ほとんどのモデルで高齢患者において成績がやや低下することを示しました。これは年齢に伴う組織変化が顕微鏡像を複雑にするためと考えられます。一方で、性別による差は認められませんでした。著者らは慎重さを促す複数の理由を挙げています:商用AIの「ブラックボックス」性、学習データの不明瞭さ、希少疾患の偏った表現、そしてチャットボットが病理医が通常使用する顕微鏡画像ではなくテキスト記述のみを見ていた点です。
将来の診療に向けての意味
一般読者にとっての要点は、現在の会話型AIは口腔病理の専門家の判断を時に反映することはあるが、単独で信頼できるほどにはほど遠い、ということです。最良のチャットボットでも専門家に概ね2例に1例以上は一致するものの、誤りが最も重大となるような稀なケースや早期病変では成績が悪化しました。著者らは、現時点ではこれらのツールを教育支援、作業負荷の軽減、概略のセカンドチェックといった補助的用途に限定し、訓練を受けた病理医の代替とすべきではないと結論づけています。より良いデータ、明確な監督、慎重な検証があれば将来は診断のより安全なパートナーになり得るが、現時点では人間の専門知識が不可欠である、というのが結論です。
引用: Alvarez-Silberberg, V.I., Alvarez-Silberberg, C.P., Galletti, C. et al. Comparative analysis of large language models as decision support tools in oral pathology. Sci Rep 16, 11272 (2026). https://doi.org/10.1038/s41598-026-41533-z
キーワード: 口腔病理学, 人工知能, 臨床意思決定支援, 大規模言語モデル, デジタル歯科