Clear Sky Science · pl

Porównanie zgodności między dużymi modelami językowymi a opublikowanymi wnioskami z badań klinicznych na czterech platformach sztucznej inteligencji

2026-04-02 · Powrót do spisu

Dlaczego to ma znaczenie dla codziennej opieki zdrowotnej

Lekarze opierają decyzje o bezpieczeństwie i skuteczności terapii na dużych badaniach klinicznych. Jednocześnie nowe narzędzia sztucznej inteligencji coraz lepiej czytają i podsumowują badania medyczne. To badanie stawia proste, lecz ważne pytanie dla pacjentów i klinicystów: gdy te narzędzia analizują te same badania co eksperci-ludzie, czy dochodzą do tych samych końcowych wniosków o tym, co działa, a co nie?

Jak badacze przetestowali narzędzia AI

Zespół skupił się na 20 dobrze znanych badaniach klinicznych opublikowanych w New England Journal of Medicine, obejmujących choroby serca, udar, cukrzycę, raka i neurochirurgię. Wyboru dokonaono ze względu na staranny projekt i czytelne raportowanie, co czyni je dobrym polem testowym. Zamiast podawać systemom AI pełne artykuły, badacze dostarczyli jedynie tabele i rysunki zawierające liczby, takie jak częstości zdarzeń i wykresy wyników. Zmuszało to narzędzia do polegania na danych, a nie na powielaniu pisemnych streszczeń autorów.

Figure 1. Jak różne narzędzia AI odczytują te same badania medyczne i jak wypadają w porównaniu z wnioskami lekarzy.

O co proszono systemy AI

Przetestowano cztery szeroko używane duże modele językowe: ChatGPT, Gemini, Grok3 i Claude. Każdy model otrzymał ten sam ustandaryzowany prompt, proszący o interpretację danych w pięciu wymiarach. Modele miały wyjaśnić ogólne ustalenia, zinterpretować statystyki, powiązać wyniki z opieką nad pacjentem, wskazać ograniczenia badania oraz zasugerować możliwe zastosowania w praktyce. Dwóch przeszkolonych analityków porównało następnie każdą odpowiedź AI z oryginalnym artykułem i oceniło wydajność w każdej z tych pięciu kategorii w skali od zera do pięciu.

Jak dobrze AI zgadzało się z wnioskami ludzi

ChatGPT wykazał największą zgodność z opublikowanymi wnioskami badań, uzyskując idealny medianowy wynik 25 na 25 wśród 20 badań. Gemini osiągnął 21 na 25, a Grok3 i Claude uzyskały mediany odpowiednio 18 i 17. Wszystkie cztery narzędzia wypadły najlepiej w opisywaniu znaczenia wyników dla pacjentów, a szczególnie ChatGPT osiągał najwyższe wyniki we wszystkich obszarach. Gemini także dobrze radził sobie z identyfikacją słabości badań i potencjalnych czynników mylących, podczas gdy Grok3 i Claude były mniej niezawodne w rozpoznawaniu ograniczeń i w dawaniu praktycznych sugestii terapeutycznych. Dwaj oceniający-ludzie mocno się ze sobą zgadzali, co sugeruje stabilność samej metody oceny.

Figure 2. Krok po kroku, jak AI przekształca liczby z badań w oceny dotyczące terapii i ich ograniczeń.

Ostrożność wobec ukrytego treningu i bezpieczeństwa w praktyce

Mimo że wyniki wyglądają imponująco, autorzy ostrzegają, że należy je interpretować ostrożnie. Badania użyte w analizie są znane i prawdopodobnie pojawiły się w danych treningowych tych systemów AI. Oznacza to, że narzędzia mogły już „znać” te prace i przywoływać wzorce, które wcześniej widziały, zamiast samodzielnie wnioskować wyłącznie na podstawie dostarczonych tabel. Brak zaślepenia co do tego, który system wygenerował odpowiedź, również pozostawia pole dla subtelnej ludzkiej stronniczości przy ocenianiu. Ponadto wybrane badania miały przeważnie wyraźne, pozytywne wyniki, co reprezentuje scenariusz najlepszy z możliwych, a nie chaotyczne i niepewne badania, które często kształtują decyzje w rzeczywistym świecie.

Co to oznacza dla przyszłej opieki

Dla osoby niebędącej specjalistą wniosek jest taki, że niektóre narzędzia AI, szczególnie ChatGPT i Gemini, często potrafią czytać dane z badań medycznych i zgadzać się z wnioskami ekspertów, przynajmniej w przypadku dobrze znanych, wysokiej jakości badań. Sugeruje to, że mogą być użyteczne jako pomoc w streszczaniu złożonych badań i organizowaniu dowodów, ale nie są gotowe, by zastąpić lekarzy czy badaczy. Historia ich treningu jest nieprzejrzysta, wydajność różni się między platformami, a ich odpowiedzi nie zostały udowodnione jako bezpieczne do podejmowania bezpośrednich decyzji terapeutycznych. Autorzy postulują, by traktować AI jako potężnego asystenta potrafiącego przesiać liczby i wyeksponować wzorce, podczas gdy ostateczne sądy, empatia i decyzje dotyczące opieki nad pacjentem pozostają w gestii ludzkich klinicystów.

Cytowanie: Mao, G., Snyder, W., Chinthala, A.S. et al. Benchmarking agreement between large language models and published clinical trial conclusions across four artificial intelligence platforms. Sci Rep 16, 15606 (2026). https://doi.org/10.1038/s41598-026-45326-2

Słowa kluczowe: duże modele językowe, badania kliniczne, medyczna AI, synthesa dowodów, wsparcie decyzji klinicznych