Clear Sky Science · ja
KG対応コントラスト学習と制約付きオンプレLLM推論による患者住所の解析
なぜ患者住所の整理が重要か
すべての病院受診の裏には控えめな一行のテキストがある:患者の自宅住所だ。単なる事務的な詳細ではなく、これらの住所は疾病の地図化、緊急対応計画、診療所や救急車の配置決定といった意思決定を支える。ところが多くの医療記録システムでは、住所は略語、誤字、欠落の多い雑多で一貫性のないテキストとして保存されている。本稿は、こうした扱いにくい住所テキストを敏感な情報を守ったままきれいで信頼できる記録に変える新手法、AddrKG‑LLMを紹介する。
乱雑な自宅住所が抱える問題
住所が自由入力されると、区名が抜け落ちたり語順が入れ替わったり、公式地図に載らない地域の通称が使われたりする。従来の計算手法は文字列を文字ごとや単純な単語リストとして比較するため、入力が既に整っている場合にしかうまく機能しない。最近の深層学習は文脈をより賢く読むが、やはり珍しい表現に弱く、計算資源を大きく必要とする。近年の大規模言語モデルはテキスト理解と生成に優れた力を示しているが、自由に応答させるとデータにない詳細を「幻覚」的に生成する傾向があり、記録の正確性と監査可能性が求められる医療の現場では許容できないリスクとなる。
混乱から秩序へ──二段階の道筋
研究チームは、言語モデルを単独で動かすのではなく、構造と安全装置を付与する二段階パイプラインとしてAddrKG‑LLMを設計した。まず、入力された患者住所から建物や部屋番号、電話番号のような高度に個人を特定し得る情報を削ぎ落としてプライバシーを保護する。残されたテキストはその意味を捉える密な数値表現に変換される。同時に、都市・区・通り・住宅団地といった公的な関係性を符号化した地図のようなネットワーク、ナレッジグラフが構築される。コントラスト学習という手法を使い、同一の実在コミュニティを指す住所は共有空間内で近く、無関係な場所は遠ざかるようにシステムを学習させる。これにより、新しい患者記録ごとにあり得る候補住所の短いリストを迅速に検索できるようになる。

AIを短い綱で管理する
第二段階では、大規模言語モデルは慎重に囲い込まれた探索空間の中で動作する。モデルに住所をゼロから創作させる代わりに、元のクリーン化済みテキストとナレッジグラフが提示する少数の候補コミュニティを与える。プロンプトは明示的に候補の中からのみ選ぶこと、そして市区町村・区・通り(町)・コミュニティという別々のスロットを持つ固定JSON構造で出力することを指示する。もしどの候補も合致しない場合――例えば真のコミュニティが検索で出てこなかったとき――モデルは推測せず空の値を返すように指示される。この「まず拒否する」振る舞いにより、もっともらしく聞こえるが誤った記録が病院のデータに入り込むリスクが大幅に低減される。

実際の効果はどの程度か?
チームは、略語、区の欠落、綴りの差異、さらには完全に無効な入力を含む一万件の匿名化された実際の病院住所でAddrKG‑LLMを評価した。従来の文字列照合ツール、深層学習の系列ラベリングモデル、自由形式で用いた汎用言語モデル、商用の住所標準化サービスと比較したところ、住所のすべての項目が同時に正しいことを要求する厳格な評価指標で、AddrKG‑LLMはこれらすべてのベースラインを上回り、強力なBERTベースのモデルに比べて総合精度を12ポイント以上向上させた。特に略記や一部欠落した住所での改善が明確で、ナレッジグラフの階層構造が欠落を補完する助けになっている。さらに、言語モデルの規模や検索する候補数を変えたときの性能変化も検討し、病院が速度と精度のバランスを自施設のニーズに合わせて調整できることを示した。
日常医療にとっての意義
非専門家向けの要点は、AddrKG‑LLMが重要だが散らかった患者住所データを、人の管理下に保ちながらきちんと整備する手段を提供するということだ。地図のようなナレッジグラフと、病院内サーバ上で完全に稼働する制約付き言語モデルを組み合わせることで、機微な情報を外部のクラウドサービスに送ることなく、AIに即興させることもなく、より正確で一貫性のある住所を実現する。結果として、疾病監視の強化、資源配分の改善、安全で効率的な病院運営の支援といった実用的な恩恵を、すべての患者を確実に地図上に置くことでもたらすことができる。
引用: Li, J., Pan, X. & Jia, Y. Patient address parsing via KG-aware contrastive learning and constrained on-prem LLM inference. Sci Rep 16, 8003 (2026). https://doi.org/10.1038/s41598-026-39348-z
キーワード: 患者住所の解析, 医療データの品質, ナレッジグラフ, 大規模言語モデル, 医療情報学