Clear Sky Science · tr

Psikoz yelpazesinde multimodal konuşma analizinde belirsizlik modelleme

· Dizine geri dön

Günlük Konuşmalardaki Gizli İpuçlarını Dinlemek

Psikoz genellikle ani ve dramatik—sesler, görüler ve gerçeklikten kopma—olarak düşünülür. Ancak bir krizden çok önce, insanların konuşma biçimlerinde ince değişimler ortaya çıkabilir: ses tonları, kelime tercihleri hatta cümle ritimleri. Bu çalışma, bilgisayarların konuşmadaki bu zayıf sinyalleri algılayıp algılayamayacağını ve daha da önemlisi, duydukları konusunda ne kadar emin olabileceklerini araştırıyor. Böylece çalışma, klinisyenlerin ruh sağlığını daha nesnel şekilde izlemesine ve hafif riske sahip durumlardan tam hastalığa kadar geniş bir yelpazede bakımın kişiselleştirilmesine yardımcı olabilecek gelecekteki araçlara işaret ediyor.

Günlük Sohbetten Klinik Görüşmeye

Araştırmacılar, psikoz yelpazesini kapsayan 114 Almanca konuşan gönüllünün konuşmalarını kaydetti: erken dönemde psikoz tanısı almış kişiler ile tanısı olmayan ancak düşük veya yüksek düzeyde psikoz benzeri özellikler (şizotipi olarak bilinen) gösteren kişiler. Her katılımcı, yapılandırılmış klinik görüşmelerden daha serbest akan otobiyografik anlatılara, resim temelli hikâye anlatımına ve günlük sohbetlere kadar dört tür konuşma görevi tamamladı. Bu farklı ortamlar önemli çünkü sıkı yönlendirilen bir görüşme duygusal donukluk gibi bazı belirtileri öne çıkarabilirken, açık anlatılar dolaşan düşünceleri veya alışılmadık algıları açığa çıkarabilir. Bağlamlar arasında örnekleme yaparak ekip, konuşmanın gerçek dünya benzeri durumlarda belirtileri ne kadar güvenilir biçimde gösterdiğini görebildi.

Figure 1
Figure 1.

Nasıl Konuştuğumuzu ve Ne Söylediğimizi Birlikte Duymak

Çalışmanın sistemi konuşmanın iki yönünü aynı anda dinliyor. Ses tarafında perde değişimleri, ses yüksekliği ve sesin ince yapısı gibi özellikleri izliyor; bunlar birlikte dışavurum, gerilim ve akıcılığı yakalıyor. Dil tarafında ise kelimeleri—ne kadar duygusal olduklarını, algılara mı yoksa sosyal ilişkilere mi odaklandıklarını ve ne kadar tutarlı göründüklerini—analiz ediyor. Başlangıçta geniş ses ve metin koleksiyonları üzerinde eğitilmiş gelişmiş sinir ağları bu ham sinyalleri kompakt sayısal parmak izlerine dönüştürüyor. Temel model sonra bu parmak izlerini zaman içinde birleştirerek, anlık olarak hangi kanalın—ses mi yoksa dil mi—bir kişinin zihinsel durumu hakkında daha güvenilir ipucu verdiğini değerlendirebiliyor.

Modele Emin Olmadığında Bunu Söylemeyi Öğretmek

Bu çalışmayı ayıran nokta, modelin yalnızca bir tahmin üretmemesi; aynı zamanda kendi belirsizliğini de tahmin etmesi. Ses ve metin akışlarını sabit olarak ele almak yerine, veriler gürültülü veya sıra dışı olduğunda genişleyebilen olasılık bulutları olarak temsil ediyor. Ses kaydı bozuk veya kişi mırıldanıyorsa, sistem sesi küçümseyip kelimelere daha fazla dayanıma geçiyor. Transkripsiyon güvenilmez veya konuşma son derece parçalıysa tersini yapıyor. Zamanlı Bağlam Füzyonu (Temporal Context Fusion) adı verilen bu belirsizliğe duyarlı birleştirme güçlü performans gösterdi: düşük şizotipi, yüksek şizotipi ve erken psikoz gruplarını %83 F1-skoruyla ayırt etti ve iyi kalibre edilmiş güven sunarak belirtilen eminlik düzeyinin gerçekte ne sıklıkta doğru olduğu ile yakından eşleşmesini sağladı.

Figure 2
Figure 2.

Farklı Belirti Türlerini Yansıtan Konuşma Desenleri

Modelin iç işleyişini inceleyerek araştırmacılar, konuşmanın hangi yönlerinin farklı belirti boyutlarıyla en tutarlı şekilde ilişkilendiğini saptadılar. Olağandışı deneyimler veya sanrısal fikirler gibi daha yoğun pozitif belirtileri olan kişiler genellikle daha yüksek ve daha değişken perde, ses spektrumunda hızlı kaymalar ve özellikle açık uçlu anlatılarda daha büyük ses yüksekliği dalgalanmaları gösterdi. Dilleri ayrıca algı kelimeleri (görme, işitme veya hissetmeyle ilişkili) ve duygusal açıdan yüklü terimler açısından zengindi. Buna karşılık, sosyal geri çekilme ve duygusal körelme gibi daha güçlü negatif belirtilere sahip kişiler daha monoton konuşma, sınırlı perde ve daha az esnek artikülasyon sergiledi ve daha az olumlu duygu ve sosyal kelime kullandı. Hastalarda ve yüksek şizotipi gösteren gönüllülerde görülen düzensiz özellikler ise kararsız ses yüksekliği, tereddütler ve risk ile bilişsel süreç kelimeleriyle dolu parçalanmış dil olarak ortaya çıktı; bu da belirgin bir yapı olmadan zihinsel çaba işaret ediyordu.

Geleceğin Ruh Sağlığı Bakımı İçin Neden Önemli

Genel olarak bulgular, konuşmanın klinik olarak hasta olmayan kişilerde bile psikozla ilişkili özelliklerin ölçülebilir izlerini taşıdığını ve bu izlerin konuşma durumuna göre değiştiğini gösteriyor. Belirsizliğe duyarlı model, pozitif, negatif ve düzensiz özellikleri bir süreksellik boyunca izlemek için hem sesi hem dili kullanabildi ve kanıtının zayıf olduğu durumlarda bunu açıkça belirtti. Gayri uzman bir okuyucu için temel fikir, kendi sınırlarını bilen bir yapay zekâ tarafından güçlendirilen dikkatli dinlemenin nihayetinde klinisyenlerin ruh sağlığını daha nesnel izlemesine, tahmin yürütmeyi azaltmasına ve anlamlı değişimleri daha erken tespit etmesine yardımcı olabileceği. İnsan yargısını yerine koymak yerine, böyle araçlar günlük konuşmadaki daha dikkat gerektiren kalıpları vurgulayarak ikinci bir kulak görevi görebilir.

Atıf: Rohanian, M., Hüppi, R., Nooralahzadeh, F. et al. Uncertainty modeling in multimodal speech analysis across the psychosis spectrum. npj Digit. Med. 9, 218 (2026). https://doi.org/10.1038/s41746-025-02309-3

Anahtar kelimeler: psikoz, konuşma analizi, makine öğrenimi, ruh sağlığı değerlendirmesi, multimodal AI