Clear Sky Science · pl

Ocena zdolności modeli LLM do myślenia dywergencyjnego w generowaniu pomysłów naukowych na minimalnym kontekście

· Powrót do spisu

Dlaczego to ma znaczenie dla miłośników nauki na co dzień

Wiele entuzjazmu wokół współczesnej sztucznej inteligencji wynika z jej pozornej biegłości w testach i egzaminach. Jednak przełomy naukowe rzadko wynikają z odpowiadania na pytania testowe; zaczynają się od dziwnych, niepełnych pomysłów wywołanych jednym słowem albo przeczuciem. Artykuł stawia praktyczne pytanie o dalekosiężnych konsekwencjach: jeśli damy dzisiejszym dużym modelom językowym tylko drobny sygnał — pojedyncze naukowe słowo-klucz — czy potrafią faktycznie burzę mózgów nad świeżymi, wiarygodnymi pomysłami badawczymi, i jak ten „iskra kreatywności” odnosi się do zwykłych miar inteligencji AI?

Od maszyn rozwiązujących testy do towarzyszy pomysłów

Większość obecnych benchmarków traktuje AI jak znakomitego ucznia: modele dostają bogaty kontekst — na przykład całe streszczenia lub opisy problemów — a potem ocenia się, czy wskazały właściwe rozwiązanie. Taki układ mierzy głównie myślenie konwergencyjne: zawężanie opcji do jednej odpowiedzi. Autorzy argumentują, że wczesne etapy pracy naukowej wyglądają zupełnie inaczej. Naukowiec często zaczyna praktycznie od niczego poza słowem-kluczem, a następnie swobodnie kojarzy dziesiątki możliwych pytań i kierunków. Aby uchwycić tego rodzaju myślenie dywergencyjne u maszyn, wprowadzają LiveIdeaBench — nowy benchmark, który celowo redukuje kontekst do jednego naukowego słowa-klucza, takiego jak „mikroskopia” czy „prognozowanie pogody”, i prosi modele o zaproponowanie krótkich, konkretnych pomysłów badawczych.

Jak działa nowy benchmark

LiveIdeaBench obejmuje 1180 popularnych słów-kluczy z 22 dziedzin, od fizyki po medycynę i nauki społeczne. Dla każdego słowa ponad 40 wiodących modeli językowych jest proszonych o wygenerowanie zwartego pomysłu naukowego. Dynamiczny panel najlepiej radzących sobie modeli działa następnie jako „sędziowie”, oceniając każdy pomysł wzdłuż pięciu wymiarów inspirowanych kreatywnością: oryginalności, wykonalności, jasności wyrażenia, liczby odrębnych pomysłów, które model potrafi wygenerować z tego samego sygnału (płynność), oraz konsekwencji wyników w bardzo różnych tematach (elastyczność). Kilku sędziów ocenia każdy pomysł, a wyniki są uśredniane, by zredukować indywidualne uprzedzenia modeli. Benchmark jest regularnie aktualizowany — zarówno pod kątem używanych słów-kluczy, jak i ocenianych modeli — aby podążać za przesuwającą się granicą współczesnej nauki i możliwości AI.

Figure 1
Figure 1.

Co wyniki mówią o kreatywności AI

Testy na dużą skalę przeprowadzone przez autorów pokazują, że wyniki na LiveIdeaBench różnią się wyraźnie od rankingów na standardowych tablicach wyników „ogólnej inteligencji”. Niektóre znane modele, które błyszczą w matematyce, kodowaniu i rozumowaniu, nie radzą sobie tak dobrze w generowaniu różnorodnych, nowych pomysłów naukowych na minimalne wskazówki. Inne, o umiarkowanych wynikach ogólnych, w tym stosunkowo niewielkie modele, wykazują zaskakująco silne myślenie dywergencyjne, czasem dorównując lub przewyższając czołowe systemy w miarach związanych z kreatywnością. Badanie wykrywa także kompromis między odwagą a bezpieczeństwem pomysłów: modele proponujące bardzo oryginalne kierunki mogą mieć słabsze wyniki w wykonalności, podczas gdy inne preferują praktyczniejsze, lecz mniej zaskakujące propozycje. Co ważne, dłuższe, bardziej rozwinięte odpowiedzi nie gwarantują lepszych pomysłów; sama objętość słów jest słabo skorelowana z jakością.

Wgląd w mechanikę oceny

Aby przybliżyć recenzję ekspercką na dużą skalę, autorzy mocno polegają na „LLM jako sędziach”. Wyselekcjonowana grupa silnych modeli niezależnie ocenia oryginalność, wykonalność i jasność, a oddzielny proces sprawdza, czy wiele pomysłów z tego samego modelu i słowa-klucza rzeczywiście jest różnorodnych, a nie tylko parafrazą. Elastyczność mierzy się, obserwując, jak wyniki modelu utrzymują się w jego słabszych obszarach, nie tylko w dobrze znanych domenach. Zespół analizuje również, jak architektura, strategie treningowe i polityki bezpieczeństwa wpływają na twórcze wyniki. Modele z bardziej rygorystycznymi filtrami bezpieczeństwa czasami odmawiają odpowiedzi na pewne wrażliwe słowa-klucze, co obniża ich wyniki mimo odpowiedzialnego zachowania. Autorzy zauważają, że użycie sędziów AI niesie ze sobą ryzyka — jak schlebianie czy luki w nieznanym obszarze naukowym — ale wykazują wstępną zgodność z opiniami ludzkich ekspertów w wyspecjalizowanej dziedzinie matematyki.

Implikacje dla przyszłości wsparcia odkryć naukowych przez AI

Dla osoby nietechnicznej główny wniosek jest prosty, lecz istotny: dobre wyniki w testach nie czynią automatycznie z AI dobrego partnera do burzy mózgów nad nową nauką. Myślenie dywergencyjne — zdolność wygenerowania wielu różnych, sensownych pomysłów badawczych na podstawie pojedynczego sygnału — ujawnia się jako częściowo niezależna umiejętność, której współczesne benchmarki w dużej mierze nie uwzględniają.

Figure 2
Figure 2.
Autorzy argumentują, że jeśli chcemy AI, które naprawdę pomaga naukowcom odkrywać następne przełomy, potrzebne będą zarówno nowe narzędzia oceny, takie jak LiveIdeaBench, jak i nowe strategie treningowe, które nagradzają różnorodność, a nie tylko trafność. W dłuższej perspektywie może to doprowadzić do zestawu komplementarnych „współmyślicieli” AI: jednych nastawionych na dzikie, wysokiego ryzyka pomysły, innych na praktyczne dopracowanie i weryfikację — wszyscy pracujący u boku ludzkiej ciekawości, a nie jej zastępujący.

Cytowanie: Ruan, K., Wang, X., Hong, J. et al. Evaluating LLMs' divergent thinking capabilities for scientific idea generation with minimal context. Nat Commun 17, 3625 (2026). https://doi.org/10.1038/s41467-026-70245-1

Słowa kluczowe: kreatywność AI, myślenie dywergencyjne, generowanie pomysłów naukowych, duże modele językowe, benchmarking