Clear Sky Science · tr

Büyük dil modellerinde olasılık tahminindeki belirsizliğin değerlendirilmesi

· Dizine geri dön

Risk hakkında belirsiz sözcüklerin neden gerçekten önemli olduğu

Bir doktor bir tedavinin “muhtemelen” işe yarayacağını söylediğinde ya da bir hava durumu sunucusu bir kasırga için “düşük ihtimal” uyarısı verdiğinde, bu belirsiz sözcüklere dayanarak gerçek kararlar alırız. Bugün çevrimiçi sohbet botları gibi büyük dil modelleri (BDM’ler) aynı kelime dağarcığını kullanmaya başlıyor. Bu çalışma basit ama kritik bir soruyu soruyor: bir YZ “muhtemelen” dediğinde bizim kastettiğimizle aynı anlama mı geliyor — ve ham sayıları günlük belirsizlik sözcüklerine güvenilir şekilde dönüştürebiliyor mu?

Figure 1
Figure 1.

Günlük belirsizliği mikroskop altına koymak

Yazarlar “Tahmine Dayalı Olasılık Sözcükleri”ne (WEP’ler) odaklanıyor—insanların kesin yüzdeler yerine kullandığı “neredeyse kesin”, “muhtemel” ve “düşük ihtimal” gibi terimler. 1960’lara kadar uzanan ve istihbarat analistlerinin yaptığı önceki çalışmalar, bu sözcükleri sayısal olasılıklarla ilişkilendirmek için insanlara anketler uyguladı. Bu çalışma, bu insan yargılarını GPT-3.5, GPT-4, Meta’nın Llama modelleri ve ERNIE-4.0 adlı bir Çin sistemi dahil beş modern BDM’nin çıktılarıyla karşılaştırıyor. 17 yaygın belirsizlik sözcüğü için her modele İngilizce veya Çince kısa öykü benzeri istemler verildi ve 0 ile 100 arasında sayısal bir olasılık yanıtlaması istendi. Bunu birçok bağlamda tekrarlayarak, yazarlar her sözcük ve her model için tam olasılık dağılımları oluşturdular ve bunları insan anket verileriyle karşılaştırdılar.

İnsanlarla YZ’lerin aynı dili konuştuğu yerler

En uç ifadeler—yüksek uçta “neredeyse kesin” ve düşük uçta “neredeyse hiç ihtimal yok” gibi—için BDM’ler ve insanlar şaşırtıcı derecede uyumlu. Hem insanlar hem de modeller bu ifadeleri dar, yüksek ya da düşük olasılık aralıklarına sıkıştırma eğiliminde; bu da bu güçlü terimlerin bağlamlar arasında nispeten sabit anlamlara sahip olduğunu gösteriyor. Çoğu insan ve modelin yaklaşık %50-%50 olarak değerlendirdiği “neredeyse eşit” için de durum benzer. İstatistiksel testler bu belirli sözcükler için insan ve model dağılımları arasında anlamlı bir fark göstermiyor; bu da BDM’lerin insan benzeri bir kesinlikle yakın-kesinlik veya yakın-imkânsızlık durumlarını yakalayabildiğini düşündürüyor.

Anlamların sessizce ayrıldığı yerler

Belirsiz, ortalama düzeydeki sözcükler farklı bir tablo çiziyor. “Muhtemel”, “olasılıkla”, “şüpheliyiz” ve “düşük ihtimal” gibi ifadelerde modellerin sayısal yorumları insan yargılarından önemli ölçüde farklılaşıyor. Genel olarak GPT-3.5’ten daha yetenekli olmasına rağmen GPT-4 sıklıkla daha büyük boşluklar gösteriyor. Yazarlar bunun, bu tür sözcüklerin iki şeyi karıştırmasından kaynaklanabileceğini öne sürüyor: olasılık hissiyle konuşanın tutumu veya duruşu. Gerçek konuşmalarda “muhtemel” ton ve bağlama göre temkinli ya da kendinden emin gelebilir; “şüpheliyiz” ise kesin bir olasılık yerine kuşkuyu ifade edebilir. İnternetten gelen karışık türlerdeki geniş metinlerle eğitilmiş olan BDM’ler, çelişkili kullanımların ortalamasını alarak bu nüansları bulanıklaştırmış olabilir. Sonuç olarak gizli bir uyumsuzluk ortaya çıkıyor: insanlar ve YZ’ler aynı cümleyi görüp aynı sözcüğe farklı sayılar atayabilirler.

Cinsiyet, dil ve kültürel yankılar

Araştırmacılar ayrıca cinsiyetle yüklü ifadelerin ve farklı dillerin bu olasılık sözcüklerini nasıl şekillendirdiğini test etti. İstemlerde özneler tarafsız yerine “o (erkek)” veya “o (kadın)” olarak anıldığında, GPT-3.5 ve GPT-4 genellikle daha az değişken, daha “kilitli” olasılık tahminleri üretti; bazen tek bir noktaya çökme görüldü. Bu, modellerin eğitim verilerindeki stereotipik kalıpları içselleştirmiş olabileceğini düşündürüyor, oysa erkek ve kadın istemleri için genel ortalamalar benzer kaldı. İngilizce ve Çince istemleri karşılaştırdıklarında, GPT modelleri aynı belirsizlik sözcüklerini yorumlamada belirgin kaymalar gösterdi. Çoğunlukla Çince metinlerle eğitilmiş olan ERNIE-4.0 birçok terimde Çince konuşan insanlara daha yakın çıktı, ancak bazı ifadeleri hâlâ fazla ya da eksik tahmin ediyordu. Bu bulgular, bir YZ’nin belirsizlik hakkında konuşma biçiminin yalnızca seçilen sözcüğe değil, aynı zamanda eğitimine gömülü dilsel ve kültürel kalıplara da bağlı olduğunu vurguluyor.

Figure 2
Figure 2.

YZ’ler sayıları düz dil şüphesine dönüştürebilir mi?

İkinci bir deney setinde yazarlar ters problemi inceledi: GPT-4 gibi gelişmiş bir model sayısal verilerden başlayıp uygun bir belirsizlik sözcüğü seçebiliyor mu? Modele boy veya test puanları gibi basit veri setleri verildi ve gelecekteki sonuçlarla ilgili ifadeler için en uygun WEP’i (örneğin “neredeyse kesin”, “muhtemel”, “belki”, “olası değil” veya “neredeyse kesin değil”) seçmesi istendi. Daha sonra yazarlar, modelin kelime seçimlerinin olasılıklar yükselip düştüğünde, tamamlayıcı olaylar açıklandığında ve temel sayılar kontrollü şekilde değiştiğinde mantıklı olup olmadığını kontrol eden dört yeni “tutarlılık” puanıyla GPT-4’ü değerlendirdiler. GPT-4 rastgele tahminden çok daha iyi performans gösterdi ve olasılıktaki kaba değişimleri sıklıkla izleyebildi, fakat mükemmel bir tutarlılıktan uzak kaldı. Bazı testlerde farklı güven seviyeleri arasında neredeyse aynı şekilde yanıt verdi; bu da bazen bu sözcükleri gerçek verilere bağlı ince ayarlı bir ölçek yerine geniş etiketler gibi ele aldığını gösteriyor.

Gerçek dünya kararları için bunun anlamı

Okuyucu için mesaj uyarıcı ama alarmist değil. BDM’ler şimdiden kesinlik ve imkânsızlık hakkındaki en güçlü ifadelerimizin taklidini yapabiliyor ve verileri genellikle makul “muhtemel” veya “olasılık dışı” ifadelerine özetleyebiliyorlar. Ancak bu çalışma gösteriyor ki birçok günlük belirsizlik sözcüğü için içsel kalibrasyonları insan sezgisiyle tam olarak örtüşmüyor ve sayılardan dile dönüşleri tutarsız olabiliyor. Tıp, politika veya bilim iletişimi gibi risk veya güven hakkında nasıl ifade ettiğimizde küçük değişimlerin önemli olduğu alanlarda—bir modelin “muhtemelen”sinin sizin söylediğinizle aynı olmama ihtimali bulunuyor. Yazarlar, bu sistemleri güvenli kullanmak için belirsizlik sözcüklerini hâlâ dikkatle hizalanması, test edilmesi ve muhtemelen açık sayısal dayanaklar gerektiren ortak bir sözlük olarak ele almamız gerektiğini; insan ve makinenin varsayılan olarak aynı anlama geldiğini kabul etmememiz gerektiğini savunuyorlar.

Atıf: Tang, Z., Shen, K. & Kejriwal, M. An evaluation of estimative uncertainty in large language models. npj Complex 3, 8 (2026). https://doi.org/10.1038/s44260-026-00070-6

Anahtar kelimeler: belirsizlik dil, büyük dil modelleri, olasılık sözcükleri, insan-YZ iletişimi, risk yorumlama