Clear Sky Science · tr
Derin öğrenme ile sağlık ürünleri kusur raporlarının sınıflandırılması
Kötü ilaçları daha hızlı yakalamanın önemi
Çoğumuz kullandığımız ilaçların ve sağlık ürünlerinin güvenli olduğunu ve sıkı kalite standartlarına göre üretildiğini varsayarız. Yine de dünya genelinde yüzlerce ilaç ürünü her yıl kontaminasyon, yanlış içerik veya yanıltıcı etiketleme nedeniyle geri çağrılıyor. Her kusurlu ürün hastalar için potansiyel bir tehdittir. Düzenleyicilerin hangi raporların acil müdahale gerektirdiğine karar vermek için binlerce kusur raporunu hızla okumaları ve yorumlamaları gerekir. Bu makale, sağlık yetkililerinin bu raporları daha hızlı ve daha tutarlı biçimde sınıflandırmalarına yardımcı olmak üzere nasıl bir derin öğrenme sistemi geliştirildiğini anlatmaktadır; böylece en büyük halk sağlığı riskine sahip sorunlara odaklanılabilir.
Ürün sorunları bugün nasıl bildiriliyor
Bir ilaçta veya başka bir sağlık ürününde olası bir kusur bulunduğunda, düzenleyicilere kısa bir yazılı rapor gönderilir. Bu raporlar cam şişede cam parçaları, bir tabletin yanlış bileşeni, sızdıran ambalaj veya dozlama hatalarına yol açabilecek etiketler gibi pek çok konuyu tanımlayabilir. Singapur’da Sağlık Bilimleri Otoritesi, yerel ihtiyaçlara uyarlanmış standart bir tıbbi sözlük kullanarak her raporu mikroplarla kontaminasyon veya kuralları ihlal eden reklam gibi birkaç özel kategoriden birine gruplandırır. Bir rapora atanan kategori, sorunun ne kadar ciddi olduğunu ve ne kadar hızlı ele alınması gerektiğini belirlemeye yardımcı olur. Şu anda eğitimli görevliler her raporu okuyup etiketi elle atıyor. Bu iş yavaş, karmaşık ve rapor sayısı arttıkça tutarsız olabiliyor.

Bilgisayara kusur raporlarını okumayı öğretmek
Araştırmacılar, bu görevlere yardımcı olacak —yerlerini almak değil— bir yapay zeka sistemi kurmayı amaçladılar. 2010 ile 2021 arasındaki dönemde gelen ilaçlar, aşılar, takviyeler ve kozmetik ürünlerini kapsayan 13.830 kusur raporu topladılar. Deneyimli bir eczacı ekibi her raporu dikkatle gözden geçirip, birlikte tüm vakaların %99’dan fazlasını kapsayan en yaygın 21 kusur kategorisini kullanarak etiketledi. Takım, bağlam içinde kelimelerin anlamını kavramaya yönelik popüler bir dil modeli olan BERT’i sistemin çekirdeği olarak kullandı. Bu etiketli koleksiyon üzerinde ince ayar yaparak, bir raporun başlığını ve açıklamasını okuyup en olası kusur kategorisini tahmin edebilen MedDefects‑BERT adında bir araç yarattılar.
Sistemin performansı ne kadar iyi
Daha önce görmediği raporlar üzerinde test edildiğinde, MedDefects‑BERT uzmanların bir numaralı tercihleriyle %86 oranında eşleşti. Sistem en olası üç kategorisini önermesine izin verildiğinde, doğru kategoriyi %96 oranında içerdi. Bu önemlidir çünkü gerçek bir görevli, sıfırdan başlamak yerine kısa bir öneri listesine bakarak inceleme yapabilir. Sistem, makine öğrenmesinde tipik olduğu üzere daha fazla eğitim örneğine sahip kategorilerde daha iyi çalıştı. Yine de, üçe kadar önerilen etiketin izin verilmesi her kategori için —nadir olanlar dahil— performansı %70’in üzerine çıkardı. Modelin güven skorları—doğru olma olasılığını gösteren 0 ile 1 arasındaki sayılar—doğruluğuyla güçlü biçimde ilişkiliydi. Bir güven eşik değeri belirleyerek, ekip “belirli” tahminlerde doğruluğu yaklaşık %91’e çıkarırken olguların makul bir kısmını daha yakından insan incelemesi için “belirsiz” olarak işaretleyebileceklerini gösterdi.

Modelin kararlarının içini incelemek
Yazarlar ayrıca güvenlik açısından kritik alanlardaki bir yapay zeka endişesi olan şeffaflığa odaklandılar. Görselleştirme araçları kullanarak aynı kusur türüne ait raporların modelin belgelerin anlamlarına ilişkin içsel “haritasında” kümelendiğini, yanlış sınıflandırılan raporların ise kümelerin kenarlarında yer aldığını gösterdiler. Bireysel kelime düzeyinde ise SHAP adlı bir yöntem uygulayarak bir rapordaki hangi terimlerin modeli belirli bir kategoriye ittiğini vurguladılar. Örneğin mantar veya küf ile ilgili kelimeler mikrobiyal kontaminasyon tahminlerini güçlü şekilde etkilerken, “çöküntü” veya “tortu” gibi terimler üründeki birikintilerle ilişkili kategoriye destek verdi. Bu açıklamalar görevlilere modelin neden bir öneride bulunduğunu hızlıca görme ve bağlam içinde mantıklı olup olmadığını değerlendirme olanağı sunar.
Sistemi daha akıllı ve verimli yapmak
Ağır hesaplama maliyeti eklemeden performansı daha da artırmak için ekip derin istem ayarlama (deep prompt tuning) olarak bilinen bir teknik kullandı. Modelin tüm iç ayarlarını değiştirmek yerine, her katmana modele hafifçe bu özel görev yönünde çeken küçük eğitilebilir “ön ekler” eklediler. Geleneksel ince ayar ile bu istemleri birleştirmek, kusur kategorilerinin yarısından fazlasında sistemin doğruluğunu artırdı ve genel olarak vakaları doğru tespit etme yeteneğini geliştirdi. 2022’den gelen daha yeni raporlar üzerinde yapılan testler, sistemin doğruluğunun zaman içinde korunduğunu gösterdi; bu da kusur raporlarını anlama yetisinin hızla eskimeyeceğine dair bir işaret olmadığını öne sürüyor.
Bu hastalar ve düzenleyiciler için ne anlama geliyor
Araştırma, iyi tasarlanmış bir dil modelinin düzenleyicilerin büyük hacimli sağlık ürünü kusur raporlarını elemesine, vaka sınıflandırmasını standartlaştırmasına ve yüksek riskli sorunları daha çabuk öne çıkarmasına önemli ölçüde yardımcı olabileceğini gösteriyor. Sistem önerilerini hangi kelime ve pasajların yönlendirdiğini de açıkladığı için nihai kararlarda insan uzmanlar tamamen kontrolü elinde tutuyor. Bir raporda birden çok kusur türünün ele alınması ve daha nadir kategorilere genişleme gibi ilave iyileştirmelerle, benzer araçlar dünya çapında ilaç kalitesi gözetimini güçlendirebilir, tehlikeli ürünlerin geri çağrılmasındaki gecikmeleri azaltabilir ve nihayetinde hastalar için daha iyi koruma sağlayabilir.
Atıf: Sancenon, V., Huang, Y., Zou, L. et al. Classification of health product defect reports by deep learning. Sci Rep 16, 13528 (2026). https://doi.org/10.1038/s41598-026-43961-3
Anahtar kelimeler: ilaç güvenliği, ilaç kalitesi, derin öğrenme, düzenleyici gözetim, doğal dil işleme