Clear Sky Science · ja

減量手術に関する質問に対する大規模言語モデルの学際的専門家評価:ERNIE Bot 4.0、ChatGPT-4、Claude 3 Opus、Gemini Proの比較分析

· 一覧に戻る

減量手術を検討する人にとってなぜ重要か

減量手術を考えている人は、迅速な回答を得るためにオンラインのツールやチャットボットに頼ることがよくあります。本研究は単純だが重要な問いを投げかけます:大規模言語モデルを用いたチャットボットが減量手術に関する一般的な質問に答えたとき、その回答はどれほど正確で網羅的か、そして患者や臨床医を実際に支援できるのか?

臨床領域に入ってきた現代のチャットボット

研究チームは、ERNIE Bot 4.0、ChatGPT-4、Claude 3 Opus、Gemini Proという広く使われている4つの大規模言語モデルベースのチャットボットを検討しました。対象は、適格性、準備方法、予想されるリスク、術後の生活習慣の変化など、減量手術に関する実務的な質問です。文献、ソーシャルメディア、診療現場から収集した200件の質問候補から、患者の関心をよく代表する50件を選び出しました。各チャットボットは50問すべてに回答し、計200件の応答が得られ、それらはレビューのために翻訳と標準化が行われました。

Figure 1. 専門家らが、減量手術に関する一般的な質問に答える4つのAIチャットボットを安全性と有用性の観点から評価する。
Figure 1. 専門家らが、減量手術に関する一般的な質問に答える4つのAIチャットボットを安全性と有用性の観点から評価する。

一面的ではない、多様な専門家チーム

回答の評価を外科医だけに任せる代わりに、チームは7名の学際的な経験豊富な専門家パネルを組織しました:肥満外科医4名、肥満専門医1名、管理栄養士2名です。各専門家は独立して各回答の正確性を評価し、より良い回答については網羅性も評価しました。正確性は明確に誤りで有害となりうるものから完全に正しいものまでの3段階で採点されました。網羅性は、手術の詳細、リスク、フォローアップケアなどの重要点をどれだけカバーしているかを反映する5段階で評価されました。評価プロセスはブラインドで行われ、レビュアーがどのチャットボットがどの回答を作成したか分からないようにし、偏りを減らすために応答はシャッフルされ複数回のセッションに分けて配布されました。

チャットボットの成績

全体として、4つのチャットボットの成績は混在していました。ERNIE Bot 4.0は専門家全員の評価を合計した場合に平均正確性スコアが最も高かった一方、ChatGPT-4は「良い」と評価された回答の割合が最も高く、低評価を一切受けませんでした。Claude 3 Opusは最も長く詳細な回答を出す傾向があり、Gemini Proは正確性の面で大きく劣り、良好と評価された回答が半数未満で、多くの回答が大多数のレビュアーにより低評価とされました。すべてのチャットボットはトピックの完全なカバーに苦労し、より良い回答であっても通常は中程度の詳細にとどまり、手術に関する十分に情報に基づいた決断に必要な深さを一貫して提供するものはありませんでした。

Figure 2. チャットボットが手術に関する回答をどのように生成するか、医師が安全な指導とリスクのある助言をどのように区別するかについて段階的に示す。
Figure 2. チャットボットが手術に関する回答をどのように生成するか、医師が安全な指導とリスクのある助言をどのように区別するかについて段階的に示す。

回答が不十分な点

すべてのチャットボットに共通する最も弱い領域は、回復、リスク、合併症の説明でした。これらのトピックは微妙なトレードオフや長期のフォローアップを伴うことが多く、ツールはそれらを単純化しすぎる傾向がありました。いくつかの回答は体重減少に関して非現実的な期待を与えたり、重要な安全情報を欠いていたり、現実の患者にとって有用とは言えない一般論にとどまっていました。専門家が最も不十分と判断した回答をチャットボットに見直し訂正するよう求めたところ、多くのツールは顕著に改善しました。特に根拠に基づく情報源をオンラインで参照するよう促した場合に改善が見られました。しかし、自己修正やウェブ検索を行っても、特定のモデルからの一部の応答は不正確なままであり、インターネット接続があるだけでは信頼できる医療助言を保証しないことが示されました。

患者と臨床医にとっての意味

現時点では、この研究は大規模言語モデルを用いたチャットボットが、特に基本的な質問や初期の情報収集において減量手術の教育支援として有用であり得ることを示唆しています。しかし、それらは専門家の助言に代わったり、単独で手術、回復、長期ケアに関する意思決定を導く段階には達していません。著者らは、安全な利用には肥満手術領域に特化し、確かな根拠に基づき、外科医、医師、管理栄養士、看護師らの継続的な関与を得ながら開発されるモデルが必要だと主張します。慎重な設計と厳格な監督があれば、これらのツールは患者と医療チームの間のより情報に基づいた対話を支援する存在になり得るが、それ自体が代替するものではないと結論づけています。

引用: Cai, J., Chen, J., Yu, T. et al. Multidisciplinary expert evaluation of large language models on questions regarding bariatric surgery: a comparative analysis of ERNIE Bot 4.0, ChatGPT-4, Claude 3 Opus, and Gemini Pro. Sci Rep 16, 16043 (2026). https://doi.org/10.1038/s41598-026-46766-6

キーワード: 肥満手術, 減量手術, 医療チャットボット, 大規模言語モデル, 患者教育