Clear Sky Science · ja

入院必要性を予測するためのXGBoostと遺伝的アルゴリズムに基づく説明可能なアルゴリズムの設計

· 一覧に戻る

日常診療でなぜ重要か

COVID-19 流行期には、医師は誰が病院のベッドを必要とし、誰が自宅で安全に回復できるかを非常に短時間で判断することが求められました。本論文はその判断を支援するために設計されたコンピュータ支援ツールを紹介します。本ツールは、リスクを見抜く高い精度と、医師が実際に信頼し利用できる明快で単純な説明性という二つの重要な特性を組み合わせようとしています。

患者記録を早期警告へ変える

研究者らは、2020年4月から2021年3月の間にイランの単一病院で診察を受けた1,278人の成人COVID-19患者の医療記録を解析しました。各患者について、年齢、酸素飽和度、C反応性蛋白(CRP)やD-ダイマーなどの血液検査、発熱や呼吸困難といった症状、糖尿病や高血圧など既往症を含む27項目の情報を収集しました。COVID-19を示す確実な検査または画像所見があり、比較的完全なデータの記録のみが採用されました。チームはデータセットを丁寧にクリーニングし、統計的手法で一部の欠損値を補完し、明らかなエラーを除去した上で、モデル構築用と検証用にデータを分割しました。

Figure 1
Figure 1.

強力な予測エンジンの構築

システムの中心にはXGBoostと呼ばれる機械学習手法があり、複雑なデータからパターンを見つけるのに優れています。本ツールは過去の患者データから、どの組み合わせの測定値が入院を要する兆候になるかを学習します。新しいデータで100回検証したところ、入院可能性の高低を区別する性能はAUCが0.85で、入院が必要な人を順序付ける力は高いことが示されました。実際に入院を要した患者の約4分の3を特定し、入院を要さなかった人の約9割を正しく安心させました。ロジスティック回帰、ランダムフォレスト、単純なニューラルネットワーク、LightGBMといったより従来の手法と比較して、XGBoostは精度と信頼性のバランスで最も良好な結果を示しました。

ブラックボックスから医師向けの明確なルールへ

純粋に統計的なモデルはブラックボックスのように感じられがちで、リスクスコアは示すものの人間に分かりやすい理由を示しません。その箱を開くために、研究チームはモデルの振る舞いを「IF(もし)これらの条件があるならTHEN(その場合)入院が妥当である」といった短く読みやすいルールへ変換する第二層を加えました。まず少数の条件だけを用いる小さな決定木群を学習させ、それらの木の各経路を候補ルールとして扱いました。遺伝的アルゴリズム(進化に着想を得た最適化手法)を用いてルールを刈り込みと精緻化を行い、精度が高くかつ十分な患者に適用可能なルールのみを残しました。最後に関連する専門分野の医師10名がルールを評価し、医学的に妥当で明瞭なものだけを採用しました。このプロセスにより、入院を示唆する20のルールと外来での安全な対応を示す20のルール、計40の最終ルールが作成されました。

Figure 2
Figure 2.

モデルが学んだリスク要因

どの測定値が重要だったかを検討すると、少数の項目が際立ちました。低い酸素飽和度、高いC反応性蛋白、年齢の高齢化、上昇したD-ダイマー、高フェリチン、低いリンパ球割合が予測に最も大きな影響を与え、酸素レベルや炎症・凝固の兆候が重要であるという臨床の最前線での経験と一致しました。糖尿病、CTでの著明な肺病変、呼吸困難といった状態も影響を与えましたが、やや副次的でした。咳や筋肉痛といった一般的な症状は、誰が入院を必要とするかの判断にはあまり寄与しませんでした。チームはまた、性別、年齢層、主要慢性疾患の有無別での性能も確認しましたが、差は小さく統計的に有意ではなく、本データセットではツールがこれらのグループ間で比較的公平に振る舞っていることを示唆しました。

将来の流行でどのように役立つか

実際には、このシステムは二段階で機能します。まずXGBoostモデルが患者の基本情報、バイタルサイン、一般的な血液検査から入院リスクを算出します。次に、ツールが専門家に承認されたルールの中からその患者に一致するものを探します(たとえば、低酸素と高い炎症マーカー、年齢の組み合わせなど)。モデルの予測と一致するルールが見つかれば、ツールはそのルールを臨床医に提示し、提案判断の根拠として示します。著者らは、この二段構えの設計—高精度の予測と単純で検証済みのルール—が、実際の診療現場で人工知能の受容性を高める可能性があると主張しています。ルール生成プロセスがモジュール化されているため、同様のシステムは地域で収集したデータを用いて新しい感染症に対して素早く再学習させることができ、将来の公衆衛生危機時に病院が患者をトリアージし、限られた資源を管理するのに役立つ可能性があります。

引用: Abkar, A., Mehrabi, M., Golabpour, A. et al. Designing an explainable algorithm based on XGBoost and genetic algorithm for predicting hospitalization needs of COVID-19 patients. Sci Rep 16, 10210 (2026). https://doi.org/10.1038/s41598-026-40120-6

キーワード: COVID-19 トリアージ, 入院予測, 説明可能なAI, 臨床意思決定支援, 医療における機械学習