Clear Sky Science · tr

KG bilgili kontrastif öğrenme ve sınırlı kurum içi LLM çıkarımıyla hasta adresi ayrıştırma

· Dizine geri dön

Neden düzenli hasta adresleri önemli

Her hastane ziyaretinin arkasında sade bir metin satırı yatar: hastanın ev adresi. Sadece bürokratik bir detay olmanın ötesinde, bu adresler hastalık haritalamayı, acil durum planlamasını ve kliniklerin ile ambulansların nereye yerleştirileceğine dair kararları besler. Yine de birçok tıbbi kayıt sisteminde adresler, kısaltmalar, yazım hataları ve eksik bilgilerle dolu dağınık ve tutarsız metinler olarak saklanır. Bu makale, AddrKG‑LLM adını taşıyan yeni bir yöntemi tanıtıyor: bu düzensiz adres metinlerini temiz, güvenilir kayıtlara dönüştürürken hassas ayrıntıları gizli tutmayı sağlar.

Dağınık ev adreslerinin sorunu

Adresler serbestçe yazıldığında insanlar mahalleleri atlar, kelime sırasını değiştirir veya resmi haritalarda tanınmayan yerel lakaplar kullanır. Eski bilgisayar yöntemleri karakter karakter veya basit kelime listeleriyle karşılaştırma yapar; bu, girişler zaten düzgün ve eksiksiz olduğunda işe yarar. Yeni derin öğrenme sistemleri bağlamı daha akıllıca okur, ancak sıra dışı ifade biçimleriyle hâlâ yanıltılabilir ve yoğun hesaplama gücü gerektirir. Son zamanlarda büyük dil modelleri metni anlama ve üretmede etkileyici bir yetenek gösterdi. Ancak serbest biçimde yanıt vermelerine izin verildiğinde, veride gerçekten olmayan ayrıntıları “üretebilme” eğilimindedirler—tıbbi kayıtların kesin ve denetlenebilir olması gereken sağlık alanında kabul edilemez bir risktir.

Düzensizlikten düzene iki aşamalı yol

Araştırmacılar AddrKG‑LLM’yi dil modelinin tek başına çalışmasına izin vermek yerine ona yapı ve güvenlik bariyerleri ekleyen iki aşamalı bir iş akışı olarak tasarladı. İlk olarak, gelen hasta adresleri bina ve oda numaraları ile telefon gibi yüksek düzeyde tanımlayıcı ayrıntıları kaldırmak için temizlenir; bu gizliliği korumaya yardımcı olur. Kalan metin anlamını yakalayan yoğun sayısal bir gösterime dönüştürülür. Aynı zamanda ekip, şehirler, ilçeler, sokaklar ve yerleşim birimlerinin resmi ilişkilerini kodlayan harita benzeri bir ağ olan bir bilgi grafiği kurar. Kontrastif öğrenme adı verilen bir teknik kullanılarak sistem, aynı gerçek dünya topluluğuna atıf yapan adreslerin bu ortak uzayda birbirine yakın, alakasız yerlerin ise daha uzak olmasını sağlayacak şekilde eğitilir. Bu, sistemin her yeni hasta kaydı için muhtemel adres adaylarının kısa bir listesini hızlıca getirmesine olanak tanır.

Figure 1
Figure 1.

Yapay zekayı sıkı bir tasma altında tutmak

İkinci aşamada, büyük dil modeli dikkatle çevrelenmiş bir arama alanı içinde çalışır. Modelin sıfırdan bir adres uydurması yerine, modele orijinal temizlenmiş metin ve bilgi grafiğinin önerdiği küçük aday topluluk seti verilir. İstenmekte olan, modelin yalnızca bu adaylardan seçmesi ve şehir, ilçe, sokak veya belde ile yerleşim için ayrı alanlar içeren sabit bir JSON yapısında çıktı üretmesidir. Hiçbir aday uymuyorsa—örneğin gerçek topluluk hiçbir zaman getirilemediyse—modelin tahminde bulunmak yerine boş değer döndürmesi talimatı verilir. Bu “önce reddetme” davranışı, hastane kayıtlarına makul gibi görünen ama yanlış girdilerin karışma riskini keskin biçimde azaltır.

Figure 2
Figure 2.

Pratikte ne kadar iyi çalışıyor?

Takım AddrKG‑LLM’yi on bin kimliksizleştirilmiş gerçek hastane adresi üzerinde test etti; bu adresler kısaltmalar, eksik ilçeler, yazım çeşitleri ve tamamen geçersiz girdiler gibi gerçek dünya gürültüsünü yansıtıyordu. Sistemlerini klasik dize eşleştirme araçları, derin öğrenme sıra-etiketleme modelleri, serbest biçimde kullanılan genel amaçlı dil modelleri ve ticari bir adres standardizasyon hizmeti ile karşılaştırdılar. Bir adresin her alanının aynı anda doğru olmasını gerektiren sıkı ölçütlerde, AddrKG‑LLM bu temellerin tümünden daha iyi performans gösterdi ve güçlü bir BERT tabanlı modele göre genel doğruluğu on iki yüzdelik puandan fazla artırdı. Kazançlar, özellikle bilgi grafiğinin yerleşik hiyerarşisinin boşlukları doldurmaya yardımcı olduğu kısaltılmış ve kısmen eksik adreslerde belirgindi. Yazarlar ayrıca farklı dil modeli boyutları ve alınan aday sayıları ile performansın nasıl değiştiğini inceleyerek hastanelerin kendi ihtiyaçlarına göre hız ve doğruluk arasında nasıl denge kurabileceğini gösterdiler.

Günlük bakım için anlamı nedir

Uzman olmayanlar için kilit mesaj şudur: AddrKG‑LLM, hayati ancak dağınık hasta adresi verilerini insan kontrolünü elinde tutarak temizlemenin bir yolunu sunar. Harita benzeri bir bilgi grafiğini tamamen hastane sunucularında çalışan ve AI’nın doğaçlama yapmasını engelleyen sınırlı bir dil modeliyle eşleştirerek, çerçeve hassas ayrıntıları harici bulut servislerine göndermeden ve AI’nin uydurmalarına izin vermeden daha doğru, tutarlı adresler sağlar. Sonuç, her hastanın güvenilir şekilde haritada yer almasını sağlayarak hastalık gözetimini güçlendirebilecek, kaynak planlamasını iyileştirebilecek ve daha güvenli, daha verimli hastane operasyonlarını destekleyebilecek pratik bir araçtır.

Atıf: Li, J., Pan, X. & Jia, Y. Patient address parsing via KG-aware contrastive learning and constrained on-prem LLM inference. Sci Rep 16, 8003 (2026). https://doi.org/10.1038/s41598-026-39348-z

Anahtar kelimeler: hasta adresi ayrıştırma, sağlık veri kalitesi, bilgi grafiği, büyük dil modeli, tıbbi enformatik