Clear Sky Science · pl

Wielomodalne duże modele językowe stawiają wyzwanie konkursowi obrazkowemu NEJM

· Powrót do spisu

Dlaczego to ma znaczenie dla pacjentów i lekarzy

Postawienie właściwej diagnozy we właściwym czasie może rozdzielić szybką terapię od lat cierpienia. Mimo to lekarze, nawet wysoko wyszkoleni, wciąż przegapiają lub opóźniają rozpoznania, szczególnie w przypadku rzadkich lub nietypowych chorób. To badanie stawia prowokujące pytanie: gdy obrazy medyczne i dane kliniczne zostaną wprowadzone do najnowocześniejszych dziś systemów sztucznej inteligencji, czy potrafią one rozpoznać złożone przypadki lepiej niż duża liczba prawdziwych lekarzy — a jeśli tak, co to oznacza dla przyszłej opieki medycznej?

Figure 1
Figure 1.

Ogromna układanka z przypadków z praktyki

Naukowcy sięgnęli do wieloletniej rubryki New England Journal of Medicine zwanej „Image Challenge”. Każde zadanie przedstawia rzeczywisty obraz pacjenta — na przykład zdjęcie skóry, radiogram, MRI czy preparat mikroskopowy — wraz z krótką historią kliniczną i pięcioma możliwymi rozpoznaniami. Od 2009 roku zgromadzono ponad 16 milionów odpowiedzi od więcej niż 60 000 lekarzy na zadanie, tworząc wyjątkowy globalny zapis wyników lekarzy na tych samych trudnych pytaniach. Z tego archiwum zespół wybrał 272 przypadki obejmujące wszystkie grupy wiekowe, obie płcie i szeroki wachlarz schorzeń — od infekcji i chorób autoimmunologicznych po nowotwory, choroby genetyczne i urazy.

Postawienie AI i lekarzy na tej samej arenie

Badanie przetestowało trzy wiodące wielomodalne duże modele językowe — systemy, które potrafią analizować obrazy i tekst jednocześnie: GPT‑4o, Claude 3.7 oraz Doubao. W każdym przypadku modele najpierw widziały jedynie obraz i musiały wybrać jedną z pięciu opcji, uzasadniając wybór. Następnie otrzymywały obraz wraz z opisem klinicznym i odpowiadały ponownie. Aby zachować sprawiedliwość testu, modele używano w standardowych ustawieniach, bez wyszukiwania w sieci i dodatkowych funkcji wnioskowania, a każdy przypadek uruchamiano w nowej sesji, by uniknąć zanieczyszczenia wcześniejszymi odpowiedziami. Dwie lekarki/lekarki oceniały odpowiedzi AI względem oficjalnych rozwiązań New England Journal, koncentrując się na tym, czy końcowy wybór zgadzał się z prawdziwą diagnozą, tak jak w porównaniu z grupą ludzką.

Poziom ponadludzki w różnych chorobach i formatach obrazów

Gdy modele otrzymały zarówno obrazy, jak i tekst, wszystkie trzy systemy wyraźnie przewyższyły globalną pulę lekarzy. Claude 3.7 i GPT‑4o osiągnęły każde około 89–90% trafności, w porównaniu do 46,7% dla większościowego głosu ludzkich respondentów — różnica ponad 40 punktów procentowych. Nawet w najtrudniejszych przypadkach, gdzie mniej niż 40% lekarzy miało rację, Claude 3.7 poprawnie rozpoznał 86,5% diagnoz. Przewaga utrzymywała się w większości typów chorób i formatów obrazów: modele były szczególnie mocne w schorzeniach związanych z lekami i chorobach genetycznych, a radziły sobie nie tylko ze zdjęciami i zdjęciami rentgenowskimi, lecz także z obrazami endoskopowymi, patologicznymi i mieszanymi zestawami obrazów. Wyniki były równie dobre dla mężczyzn i kobiet, a w niektórych najbardziej wrażliwych grupach, takich jak niemowlęta poniżej roku życia, modele były dramatycznie dokładniejsze niż lekarze.

Figure 2
Figure 2.

Inne sposoby myślenia, nie tylko szybsze

Być może najdziwniejsze było to, jak często modele osiągały sukces tam, gdzie lekarze zawodzili. W niemal połowie przypadków Claude 3.7 był poprawny, podczas gdy większość lekarzy się myliła, a odwrotna sytuacja — lekarze poprawni, model błędny — zdarzała się rzadko. Ogólnie dla Claude 3.7 było około piętnastu przypadków „przewagi modelu” na każdy jeden przypadek „przewagi lekarza”. Mimo to zgodność między ludźmi a AI co do wyboru odpowiedzi była niska, co świadczy, że systemy nie po prostu powielają ludzkie wzorce, lecz dochodzą do prawidłowych diagnoz innymi drogami. Dodanie tekstu klinicznego zwykle bardzo pomagało, zwiększając trafność AI o 28–42 punkty procentowe w porównaniu z samymi obrazami. Nadal jednak w niewielkiej części przypadków dodatkowe szczegóły spowodowały, że modele z poprawnej odpowiedzi opartej na obrazie przeszły na błędną, co wskazuje na nowe rodzaje uprzedzeń i trybów awarii, które będą wymagać uważnego badania.

Co to może oznaczać dla przyszłej opieki

Autorzy wnioskują, że wielomodalne duże modele językowe osiągnęły na tym wymagającym quizie diagnostycznym poziom „ponadludzki”: są bardziej dokładne niż przeciętna grupa lekarzy i utrzymują przewagę nawet wtedy, gdy przypadki zaskakują większość lekarzy. Jednocześnie ich niska zgodność z wyborami ludzkimi sugeruje, że myślą w sposób komplementarny, a nie jako cyfrowe kopie klinicystów. Użyte mądrze, systemy te mogłyby służyć jako potężni „drudzy czytacze”, oferując niezależne opinie w trudnych lub rzadkich przypadkach i pomagając wychwycić problemy, które mogli przeoczyć ludzie. Nie są gotowe, by zastąpić osąd kliniczny, ale mogą wkrótce stać się wartościowymi partnerami przy łóżku pacjenta i w gabinecie obrazowania, cicho sprawdzając naszą pracę i rozszerzając siatkę bezpieczeństwa dla pacjentów.

Cytowanie: Sheng, C., Shen, S., Wang, L. et al. Multimodal large language models challenge NEJM image challenge. Sci Rep 16, 8132 (2026). https://doi.org/10.1038/s41598-026-39201-3

Słowa kluczowe: diagnoza medyczna, sztuczna inteligencja, obrazowanie medyczne, choroby rzadkie, wsparcie decyzji klinicznych