Clear Sky Science · pl

Porównawcza wydajność współczesnych i wcześniejszych dużych modeli językowych oraz rezydentów pediatrii w pytaniach egzaminacyjnych dla pediatrii

· Powrót do spisu

Dlaczego to ma znaczenie dla lekarzy i rodzin

Wraz z pojawianiem się narzędzi sztucznej inteligencji w szpitalach i szkołach medycznych, kluczowe pytanie jest proste: czy te systemy rzeczywiście dorównują osądowi lekarzy w trakcie szkolenia, zwłaszcza gdy chodzi o zdrowie dzieci? To badanie sprawdza, jak kilka czołowych modeli językowych AI radzi sobie z pytaniami pediatrycznymi oraz co to może oznaczać dla przyszłej opieki i edukacji.

Testowanie AI na rzeczywistych pytaniach egzaminacyjnych

Badacze zgromadzili 498 pytań z egzaminów in-training z pediatrii przeprowadzonych w dużym szpitalu dziecięcym w Korei w latach 2016–2023. Egzaminy te służą do oceny postępów rezydentów w ciągu czteroletniego szkolenia. Większość pytań miała formę wielokrotnego wyboru i obejmowała szeroki zakres specjalności, od opieki nad noworodkami i infekcji po choroby serca i intensywną terapię. Około jedno na pięć pytań zawierało obrazy medyczne, takie jak zdjęcia RTG, skany czy fotografie kliniczne, podczas gdy pozostałe opierały się wyłącznie na opisach pisemnych.

Figure 1. Systemy AI i rezydenci pediatrii porównywani są na pisemnych pytaniach egzaminacyjnych sprawdzających wiedzę z zakresu zdrowia dzieci.
Figure 1. Systemy AI i rezydenci pediatrii porównywani są na pisemnych pytaniach egzaminacyjnych sprawdzających wiedzę z zakresu zdrowia dzieci.

Jak porównano ludzi i maszyny

Przetestowano sześć znanych modeli językowych AI, reprezentujących trzy główne rodziny systemów i dwie generacje dla każdej rodziny: wcześniejsze wersje oraz nowsze wersje z możliwościami wizji. Modelom podano pełne zeszyty egzaminacyjne, a nie pojedyncze pytania, i musiały one same rozpoznać, które elementy to treść pytania, które to opcje odpowiedzi, a które to obrazy. Pytania były pierwotnie napisane po koreańsku z angielskimi terminami medycznymi, udostępniono starannie sprawdzone tłumaczenia. Zarówno rezydenci, jak i AI oceniani byli według tych samych zasad — odpowiedź uznano za poprawną, jeśli zgadzała się z oficjalnym rozwiązaniem lub akceptowanym synonimem. Aby ocenić stabilność systemów, każdy zestaw testowy uruchamiano pięciokrotnie, a następnie obliczano spójność wyników między uruchomieniami.

Jak AI wypadło w porównaniu z rezydentami pediatrii

Wyniki przedstawiono jako odsetek poprawnie udzielonych odpowiedzi. Jak można było się spodziewać, wyniki ludzkie rosły wraz z poziomem szkolenia: rezydenci pierwszego roku odpowiadali poprawnie na nieco ponad połowę pytań, podczas gdy rezydenci czwartego roku osiągali około 70 procent. Nowsze modele AI wypadły jeszcze lepiej ogólnie, uzyskując około 78 procent poprawnych odpowiedzi we wszystkich pytaniach i wyraźnie przewyższając najbardziej doświadczonych rezydentów. Wcześniejsze wersje AI osiągały wyniki porównywalne ze starszymi rezydentami. Gdy badacze skupili się tylko na pytaniach tekstowych, nowsze modele wyprzedziły rezydentów czwartego roku o około 10 punktów procentowych. Systemy AI były też bardzo spójne między uruchomieniami, osiągając niemal identyczne wyniki za każdym razem.

Figure 2. Modele AI radzą sobie lepiej z pytaniami tekstowymi niż tymi opartymi na obrazach przy odpowiadaniu na zadania pediatryczne.
Figure 2. Modele AI radzą sobie lepiej z pytaniami tekstowymi niż tymi opartymi na obrazach przy odpowiadaniu na zadania pediatryczne.

Gdzie AI nadal ma problemy z obrazami

Sytuacja zmieniała się, gdy pojawiały się obrazy medyczne. W pytaniach zawierających obrazy żaden z systemów AI nie przewyższył starszych rezydentów. Nowsze modele osiągały lepsze wyniki niż ich poprzednicy i uzyskiwały około średnio 70–75 procent poprawności na tych elementach wizualnych, ale ich wyniki wciąż pozostawały w tyle za własnymi mocnymi wynikami w zadaniach czysto tekstowych. Wzorzec ten utrzymywał się w różnych typach obrazów, w tym RTG, skanach i fotografiach klinicznych, oraz w szerokim zakresie tematów pediatrycznych. Wyniki te potwierdzają inne badania sugerujące, że chociaż modele językowe są silne w czytaniu i rozumowaniu tekstu, ich zdolność do interpretacji obrazów medycznych, szczególnie u dzieci, jest wciąż ograniczona.

Co to oznacza dla opieki i szkolenia

Autorzy twierdzą, że wyniki są obiecujące dla edukacji, ale ostrzegawcze w kontekście bezpośredniego stosowania klinicznego. Wysokie i stabilne wyniki na pisemnych pytaniach egzaminacyjnych sugerują, że takie systemy mogłyby pełnić rolę użytecznych partnerów do nauki, dostarczając rezydentom pediatrii szybkie pytania ćwiczeniowe i wyjaśnienia. Jednak sukces w testach wielokrotnego wyboru nie gwarantuje bezpiecznego działania w pracy z rzeczywistymi pacjentami, gdzie informacje są mniej uporządkowane, decyzje bardziej złożone, a interpretacja obrazów kluczowa. Krótko mówiąc, dzisiejsze multimodalne narzędzia AI już mogą rywalizować ze starszymi rezydentami na pisemnych egzaminach pediatrycznych, ale w zadaniach obfitujących w obrazy nadal ustępują i nie są jeszcze gotowe, by zastąpić ludzki osąd w klinice.

Cytowanie: Kim, M.J., Park, J.S. & Kang, S.H. Comparative performance of recent and prior large language models and pediatric residents on pediatric in-training examination questions. Sci Rep 16, 15849 (2026). https://doi.org/10.1038/s41598-026-44333-7

Słowa kluczowe: pediatria, duże modele językowe, egzaminy medyczne, wsparcie decyzji klinicznych, kształcenie medyczne