Clear Sky Science · ja

一次医療の電子カルテから慢性疾患を特定するための自然言語処理と機械学習の活用

2026-02-12 · 一覧に戻る

主治医の記録が思っているより重要な理由

かかりつけ医を受診すると、咳ひとつ、訴えひとつが電子カルテに書き留められます。こうした詳細の多くはチェックボックスではなく自由記述のノートに含まれています。本研究は、そうした記述的ノートを現代の計算手法と組み合わせることで、関節炎、腎疾患、糖尿病、高血圧、呼吸器疾患といった慢性疾患をより正確に見つけられることを示しています。とくに、これらの問題がカルテの他の場所で明確にコード化されていない場合に有用です。

日々の診療記録に隠れた手がかり

一次医療の電子カルテには、性質の異なる二種類の情報が含まれます。請求コード、処方薬一覧、検査結果などの構造化された項目と、臨床医が症状、病歴、診療の理由を自然言語で記す非構造化のノートです。カナダでは請求コードが不完全で、診断より支払い目的で使われることが多いため、多くの健康問題はチェックボックスよりもノートに明瞭に現れます。研究者らは、これら両方の情報を組み合わせて活用すれば、アルバータ州のある開業医療クリニックを受診した60歳以上の患者で、5つの一般的な長期疾患をより良く特定できるかを調べました。

医師の言葉をコンピュータに読ませる

臨床ノートの豊富だが雑然としたテキストを活用するために、チームは自然言語処理（NLP）を用いました。ノートから不要な記号を除去し、語形を標準化し、略語を展開し、関連語を共通の語幹に統一するなどの前処理を行いました。また、「〜の所見なし」や「除外された」など、患者にその疾患がないことを示す表現を認識する簡単なルールを作り、誤って肯定例として扱わないようにしました。臨床医メンバーは各疾患に意味のある用語やフレーズのリストを作成し、アルゴリズムが無関係な語ではなく医療的に重要な概念に注目できるよう手助けしました。

テーマを見つけ、パターンから学ぶ

次に、研究者らはテキストを数値化して機械学習モデルに入力できるようにしました。各患者のノートにおける単語や単語ペアの出現頻度を数え、非常に一般的な語の重みを下げ、特定の疾患にとって特徴的な語を際立たせました。トピックモデリングという手法を用いて、ノート中の頻出語群が糖尿病や高血圧に関連する語群と整合するかを確認しました。この工程は現実検査の役割を果たし、予測モデルを構築する前にコンピュータが抽出したテーマが臨床知識と一致していることを確認しました。

アルゴリズムに“病いそうな人”を見つけさせる

研究の中心は、3種類の機械学習モデルを訓練して、各患者が5つの慢性疾患のそれぞれを有すると推定されるかどうかを判定することでした。1つのモデルは洗練されたリスク計算機のように機能し、別のモデルは健常例と疾患例の境界を引き、3つ目は単純な生物学的に着想を得たネットワークに似ていました。まず研究者らは構造化データのみでこれらのモデルを訓練し、次に構造化データとノートから加工したテキスト特徴量の両方を用いて再訓練しました。また、サンプル内で一部の疾患が稀である点を考慮し、稀な疾患がアルゴリズムに見落とされないようデータのバランスを調整しました。

全体像を使うことで得られる明確な利得

非構造化ノートを追加すると、モデルは誰が疾患を持っているかを判別する能力が明らかに向上しました。とくに請求データで過小コーディングされがちな問題では改善が顕著でした。関節炎や呼吸器疾患では、患者を病的か健常かに分ける識別力や、真の陽性を確実に検出する能力が著しく改善しました。例えば、呼吸器疾患と関節炎の検出性能はノートを含めることで「中程度」から「強い」へと向上しました。糖尿病や高血圧の改善は小さめでしたが、これはこれらの疾患が構造化項目で既に良く捉えられていたためです。興味深いことに、より単純なモデルがしばしば複雑なニューラルネットよりも同等かそれ以上に性能を示し、この種の診療レベルの作業では必ずしも高度な深層学習が必要でないことを示唆しました。

あなたの将来の医療にとっての意味

総じて、本研究は医療記録の記述的部分――コードや検査値だけでなく――に注意を払うことで、慢性疾患の患者を見つける能力が大幅に向上することを示しています。自由記述のノートを機械が読める信号に変換し、既存の構造化データと組み合わせることで、保健システムはリスクの高い患者をより早く特定し、フォローアップを必要な場所に集中させ、訪問の記述に主として現れる他の疾患にもこのアプローチを拡張できる可能性があります。

引用: Zhang, N., Abbasi, M., Khera, S. et al. Leveraging natural language processing and machine learning to identify chronic conditions from primary care electronic medical records. Sci Rep 16, 8441 (2026). https://doi.org/10.1038/s41598-026-38594-5

キーワード: 電子カルテ, 慢性疾患検出, 自然言語処理, 医療における機械学習, 一次医療データ