Clear Sky Science · tr
SynthEHR-eviction: tahliye SDoH tespitini LLM destekli sentetik EHR verisi ile geliştirmek
Neden konut sorunları tıbbi kayıtlarda yer almalı
Birinin evinden zorla çıkarılması sağlığı derinden etkileyebilir, ancak çoğu tıbbi sistem bunun olduğunda neredeyse farkına bile varmaz. Bu makale, yapay zekaya doktor notlarında tahliye ve ilgili sosyal sıkıntı belirtilerini tespit etmeyi öğretmenin yeni bir yolunu anlatıyor. Az miktarda uzman emeğini büyük, gerçekçi bir eğitim setine çevirerek, yaklaşım sağlık sistemlerinin riski erken tespit edip kişileri konut ve sosyal destekle buluşturmasına yardımcı olabilir.
Kaybedilen bir evin sağlığa zarar verdiği durumlar
Tahliye yalnızca bir adresi değiştirmekten daha fazlasıdır. Evsizlik, işsizlik, depresyon ve hatta daha yüksek ölüm oranlarıyla ilişkilidir; marjinal gruplar ve COVID-19 gibi kriz dönemlerinde etkileri özellikle ağır olur. Buna karşın günümüzün elektronik sağlık kayıtlarında konut kaybı veya tahliye tehdidine ilişkin bilgiler genellikle standart onay kutuları veya kodlar yerine yalnızca serbest metin notlarında yer alır. Bu da hastaneler, araştırmacılar ve politika yapıcılar için tahliyenin nerede olduğunu, kimlerin en çok etkilendiğini ve ne zaman müdahale edilmesi gerektiğini görmekte zorluk yaratır.
Gerçekçi “sentetik” hasta öyküleri oluşturmak
Tahliyeyi açıkça belirten gerçek tıbbi notlar nadir ve hassas olduğundan, yazarlar SynthEHR‑Eviction adlı, gerçekçi ama tamamen sentetik örnekler üreten bir boru hattı geliştirdiler. Gerçek hastane taburculuk notlarının sosyal geçmiş bölümlerinden başlayıp, her notun belirli bir konut veya sosyal durumu yansıtacak şekilde yeniden yazılması için büyük dil modelleri—devasa metin koleksiyonları üzerinde eğitilmiş yapay zeka sistemleri—kullanıldı. Uzmanlar “beklemede” gibi ayrıntılı tahliye aşamalarını, “kira sözleşmesinin karşılıklı anlaşmayla sona erdirilmesi” ve “geçmiş vs. mevcut tahliye” gibi kategorileri ve evsizlik, gıda güvencesizliği ve faturaları ödemede güçlük gibi ilgili konuları içeren 14 kategoriyi dikkatle tanımladı. İnsan‑içinde‑döngü (human‑in‑the‑loop) yinelemeli bir süreçle klinisyenler örnek çıktıları gözden geçirip hataları işaretlediler ve yapılandırılmış geri bildirimi istem oluşturma sürecine geri vererek her AI “arttırıcısının” belirsizlik en aza indirilmiş, yüksek doğruluklu notlar üretmesini sağladılar. Sonuç, 8.000 sentetik eğitim notu ile ana araştırma veri tabanlarından alınmış kimliklendirilmemiş gerçek örneklerle karışık, özenle etiketlenmiş 600’den fazla test notu içeren büyük bir kamu veri kümesi oldu.

Bilgisayarlara satır aralarını okumayı öğretmek
Bu sentetik öykülerin üzerine ekip, yalnızca bir kategori atamakla kalmayan, aynı zamanda çıkarımının adım adım açıklamasını da üreten otomatik bir açıklama sistemi kurdu. DSPy adlı bir çerçeve kullanarak, AI’nin önce bir notun gerçekten tahliyeyi mi anlattığına karar vermesini, ardından ya ayrıntılı bir tahliye sınıflandırıcısına ya da ulaşım ya da gıda güvencesizliği gibi diğer sosyal riskler için bir sınıflandırıcıya yönlendirmesini sağlayacak şekilde istemleri (prompts) optimize ettiler. Bu tasarım, insan okuyucunun önce “Tahliye söz konusu mu?” diye sorması ve sonra vakayı daha spesifik kutulara ayırmasına benziyor. Manuel emeği azaltmak için araştırmacılar, 8.000 notun tamamının insan tarafından yeniden yazılması ve etiketlenmesinin—260 saatin üzerinde bir iş—AI destekli iş akışıyla karşılaştırmasını yaptılar; AI destekli yöntem, uzman zamanını altı saatin altında tutarak benzer veri kalitesi elde etti ve %80’e yakın bir azalım sağladı.
Modeller ne kadar iyi performans gösteriyor
SynthEHR‑Eviction ile donanmış olarak, yazarlar çeşitli açık kaynak dil modellerini ince ayar yapıp ticari sistemler ve eski biyomedikal modellerle karşılaştırdılar. Tahviyenin anılıp anılmadığını belirleme gibi basit görevde birçok model iyi performans gösterdi, ancak ince ayarlı büyük dil modelleri ve ayarlı bir GPT‑4 varyantı en yüksek skorları aldı. Daha zorlu sınav, yedi nüanslı tahliye durumu ile tahliye dışı sosyal riskler arasında ayrım yapmaktı; bu üç veri kümesi üzerinde değerlendirildi: sentetik notlar, gerçek hastane notları ve uzun akademik vaka raporları. Burada Qwen2.5 ve LLaMA‑3 gibi ince ayarlı açık modeller, optimize edilmiş GPT‑4 ile eşleşti veya onu biraz geçti; tahliye için makro‑F1 skorları yaklaşık 0.89, diğer sosyal riskler içinse 0.90’ın üzerindeydi. Sadece üç milyar parametreye sahip daha küçük modeller bile ince ayarlamayla güçlü performans gösterdi; bu, sınırlı hesaplama gücü olan ortamlarda bile yetkin ve uygun maliyetli sistemlerin uygulanabileceğini gösteriyor.

Neden çıkarım izleri ve gerçek veriler hâlâ önemli
Araştırma, açıklamaların bazı modelleri diğerlerinden daha fazla geliştirdiğini ortaya koyuyor. Eğitim verilerine kısa, açıkça belirtilmiş çıkarımlar eklendiğinde daha küçük modeller belirgin şekilde iyileşirken en büyük modellerde çok az değişiklik gözlemlendi; bu, büyük modellerin çoğu mantığı zaten kodlamış olabileceğini düşündürüyor. Bu çıkarım izleri ayrıca uzmanların model kararlarını gözden geçirmesini kolaylaştırıyor; yazarlar yine de açıklamaların her zaman modelin gerçekten nasıl karar verdiğine tam sadakatle karşılık gelmeyebileceği konusunda uyarıda bulunuyor. Başka önemli bir bulgu, yalnızca sentetik notlarla eğitilmiş modellerin dağınık gerçek dünya yazımıyla karşılaştığında tökezlemesi. Gerçek hastane veya vaka raporu notlarının makul bir oranının karıştırılması, bu alanlardaki performansı keskin şekilde iyileştirdi; bu da sentetik verinin güçlü fakat tek başına yeterli olmadığını vurguluyor.
Gizli riskten görünür yardıma
Genel olarak makale, dikkatle hazırlanmış sentetik veri ile hedeflenmiş uzman denetiminin, tahliye ve diğer güçlüklerin dağınık şekilde anılmasını bilgisayarların ölçekli olarak algılayabileceği yapılandırılmış sinyallere dönüştürebileceğini gösteriyor. Basitçe söylemek gerekirse, sistem doktor notlarının satır aralarını okuyup bir hastanın konut kaybıyla karşı karşıya olduğunu veya karşı karşıya kaldığını işaretlemeyi öğreniyor. Elektronik sağlık kayıtlarına entegre edilirse, bu tür araçlar klinisyenlerin ve sosyal hizmet uzmanlarının riski daha erken fark edip kişileri konut yardımı, mali danışmanlık veya ulaşım desteğiyle bağlamasına yardımcı olabilir. Hastalığın görünmez sosyal yanını görünür kılarak, SynthEHR‑Eviction hastaların yaşamlarının tam koşullarını gören ve yanıt veren bir sağlık bakımına giden bir yol sunuyor.
Atıf: Yao, Z., Zhao, Y., Mitra, A. et al. SynthEHR-eviction: enhancing eviction SDoH detection with LLM-augmented synthetic EHR data. npj Digit. Med. 9, 292 (2026). https://doi.org/10.1038/s41746-026-02473-0
Anahtar kelimeler: tahliye, sağlığın sosyal belirleyicileri, elektronik sağlık kayıtları, sentetik veri, klinikal doğal dil işleme