Clear Sky Science · tr

SciCUEval: Büyük Dil Modellerinde Bilimsel Bağlam Anlayışını Değerlendirmek için Kapsamlı Bir Veri Kümesi

· Dizine geri dön

Daha akıllı bilim yapay zekalarının önemi

Bilim insanları, popüler sohbet botlarının arkasındaki aileye ait araçlar olan büyük dil modellerine makaleleri okumak, veri tabanlarını taramak ve hatta yeni deneyler önermek için giderek daha fazla güvenmeye başladı. Ancak bilimsel bilgi yoğun, çeşitli ve sıklıkla eksiktir; günümüz modelleri yanlışken bile kendinden emin görünebilir. Bu makale, bu tür modellerin bilimsel bağlamı gerçekten ne kadar iyi anladığını titizlikle test etmek üzere oluşturulan yeni bir açık veri kümesi olan SciCUEval’i tanıtıyor; amaç, gelecekteki yapay zeka yardımcılarını gerçek laboratuvarlar ve kliniklerde daha güvenilir hale getirmek.

Figure 1
Figure 1.

Bilime hâkim makineler için yeni bir test yatağı

Yazarlar, mevcut kıyaslamaların çoğunlukla gündelik dil görevlerini veya kimya soru-cevap gibi tekil bilimsel alanları sınadığını ve genellikle yalnızca düz metne dayandığını savunuyor. Oysa gerçek bilim çok sayıda disiplini kapsar ve dergi paragraflarını veri tabloları ve karmaşık ilişki haritalarıyla karıştırır. SciCUEval bu gerçeği yansıtacak şekilde tasarlandı. ArXiv ön baskıları, uluslararası nükleer veri koleksiyonları, malzeme veri tabanları ve biyomedikal bilgi tabanları gibi güvenilir kaynaklardan derlenen biyoloji, kimya, fizik, biyomedikal ve malzeme bilimi dahil on alt veri kümesini bir araya getiriyor. Sonuç, dil modellerinin nasıl “uğraştıklarını” değil, gerçekten neyi anladıklarını sınayan 11.000’den fazla dikkatle oluşturulmuş sorudur.

Metin, sayılar ve ağları bir araya getirmek

SciCUEval’in ana özelliklerinden biri veri formatlarının karışımıdır. Bazı sorular, makalelerden ve deney protokollerinden alınan yapılandırılmamış metin parçalarına dayanır. Diğerleri, örneğin nükleer ölçümler veya malzeme özelliklerini listeleyen yapılandırılmış tablolara güvenir. Bir kısmı ise genler, ilaçlar veya hastalıklar gibi varlıkların türlendirilmiş bağlantılarla birbirine bağlandığı “bilgi grafikleri” kullanır. Her problem soru, doğru cevap, gerçekten ilgili destekleyici parçalar ve yanıltıcı olabilecek ek girdilerle karıştırılmış daha geniş bir arka plan bağlamı içerir. Sorular açık yanıt, çoktan seçmeli, doğru-yanlış ve boşluğu doldurma gibi birkaç tanıdık biçimde sunulur; bu da kıyaslamayı çeşitli değerlendirme stilleri için esnek kılar.

Bilimsel anlayışı sınamanın dört yolu

Basit bilgi aramanın ötesine geçmek için veri kümesi, bilim insanlarının rutin olarak ihtiyaç duyduğu ve yapay zekâ sistemlerinin taklit etmeyi öğrenmesi gereken dört temel yetenek etrafında düzenlendi. Birinci yetenek ilgili bilgiyi bulmaktır: bir model gerçekten soruyu yanıtlayan tek bir önemli tablo satırına ya da grafik girdisine odaklanıp benzeyen dikkat dağıtıcıları görmezden gelebiliyor mu? İkincisi, bilginin eksik veya güvenilmez olduğunu fark edip uydurmak yerine açıkça yanıt vermeyi reddetmektir. Üçüncü yetenek, birden çok kaynaktan gelen parçaları birleştirmektir—örneğin bir ölçüm tablosunu deney koşullarının ayrı bir açıklamasıyla ilişkilendirmek. Son olarak, bağlama duyarlı çıkarım, modelin sağlanan kanıtlardan açıkça söylenmemiş ama bariz şekilde çıkarılabilen mantıksal bir sonuca varıp varamayacağını test eder. Birlikte bu yetenekler, bilimsel ortamda “anlayış”ın ne anlama gelmesi gerektiğine dair yapılandırılmış bir kontrol listesi oluşturur.

Figure 2
Figure 2.

Sorular nasıl oluşturuldu ve kontrol edildi

Böyle bir kıyaslama oluşturmak kendi küçük bilimsel iş akışını gerektirdi. Ekip önce kaynak koleksiyonlardan küçük, tutarlı parçalar örnekledi—kısa metin pasajları, tekil tablo satırları veya bağlı girdiler setleri. Ardından güçlü bir dil modeli, ayrıntılı yönlendirmelerle rehberlik edilerek, her parçaya dayalı ve dört yetenekten birine eşlenen aday soru-cevap çiftleri taslağı hazırladı. Testi çözecek modeller için işleri zorlaştırmak üzere yazarlar, gelişmiş benzerlik arama ve örtüşme filtreleri kullanarak anlamca benzer görünseler de aslında alakasız olan ek girdilerle “gürültü” eklediler. Son olarak, iki aşamalı bir kalite kontrol titizlik sağladı: başka güçlü bir model her cevabın gerçekten destekleyici bağlamdan çıkarılıp çıkarılmadığını değerlendirdi ve ardından beş doktora düzeyindeki uzman binlerce öğeyi elle gözden geçirip belirsiz, yanıltıcı veya kanıtla tam olarak desteklenmeyenleri reddetti.

Günümüz modellerinin doğru ve yanlış yaptığı şeyler

SciCUEval ile yazarlar, yaygın kullanılan tescilli sistemler ile açık kaynaklı genel amaçlı ve bilim odaklı modeller de dahil olmak üzere 18 önde gelen dil modelini sistematik olarak değerlendirdiler. Açıkça görüldü ki açıkça belirlenmiş akıl yürütme stratejilerine ve büyük parametre sayılarına sahip modeller genellikle en iyi performansı gösteriyor, çoğunlukla daha küçük veya daha dar eğitimli bilimsel modelleri geride bırakıyordu. Çoğu sistem temel alaka bulma görevlerini makul düzeyde yerine getirdi ve serbest metinde yoğun tablolara veya grafik yapılı verilere göre daha iyi sonuç aldı. Ancak neredeyse hepsi yeterli bilgiye sahip olmadıklarında bunu kabul etmekte zorlandı ve sık sık kendinden emin ama temelsiz cevaplar verdi. Alan özelinde eğitilmiş bilimsel modeller, alan-spesifik materyallerle eğitilmiş olmalarına rağmen, genel akıl yürütme ve çoklu veri biçimlerini ele almadaki genel performansta en güçlü genel modellerin gerisinde kalabiliyordu.

Daha güvenli bilimsel yapay zeka için anlamı

Yapay zekânın laboratuvarlara, hastanelere ve malzeme tasarımına girdiğini izleyen uzman olmayanlar için SciCUEval hem bir uyarı hem de bir ilerleme yolu sunuyor. Uyarı, günümüzün etkileyici dil modellerinin özellikle bilimsel kanıtlar eksik veya formatlar arasında dağınık olduğunda aşırı güvene yatkın olmaya devam ettiğidir. İlerleme yolu ise bu zayıflıkları açığa çıkaran ve geliştiricilerin gerçek ilerlemeyi ölçmesine yardımcı olan şeffaf, zorlayıcı bir kıyaslamadır. Topluluğa paylaşılan, açık bir bilimsel bağlam anlama testi sunarak yazarlar, gelecekteki modelleri bilim hakkında akıllı gibi görünmekle kalmayıp dikkatli, kanıta dayalı işbirlikçiler gibi davranmaya yönlendirmeyi amaçlıyor.

Atıf: Yu, J., Tang, Y., Feng, K. et al. SciCUEval: A Comprehensive Dataset for Evaluating Scientific Context Understanding in Large Language Models. Sci Data 13, 530 (2026). https://doi.org/10.1038/s41597-026-06594-9

Anahtar kelimeler: bilimsel kıyaslama, büyük dil modelleri, bağlam anlayışı, çokmodlu bilimsel veriler, Yapay Zeka değerlendirmesi