Clear Sky Science · pl
Wydajność DeepSeek przy tworzeniu pytań egzaminacyjnych w trakcie szkolenia rezydentów radiologii
Dlaczego lepsze pytania testowe mają znaczenie
Lekarze zajmujący się obrazowaniem medycznym w trakcie szkolenia regularnie zdają testy, by sprawdzić swoją wiedzę i umiejętność opieki nad pacjentami. Tworzenie tych pytań zabiera ekspertom dużo czasu, więc uczelnie zastanawiają się, czy narzędzia sztucznej inteligencji mogą pomóc. W tym badaniu sprawdzono, czy duży model językowy o nazwie DeepSeek może odciążyć część tej pracy, tworząc pytania wielokrotnego wyboru dla rezydentów z radiologii, oraz gdzie wciąż niezbędna jest rola ludzkich ekspertów.

Co badacze chcieli ustalić
Zespół z Chin skoncentrował się na kluczowym elemencie szkolenia w radiologii: egzaminach wewnętrznych, które śledzą postępy rezydentów każdego roku. Porównali dwa dopasowane zestawy pytań egzaminacyjnych. Jeden zestaw napisali doświadczeni radiolodzy zgodnie z krajowymi standardami szkoleniowymi. Drugi zestaw wygenerował w języku chińskim model DeepSeek przy użyciu starannie zaprojektowanych poleceń określających temat, poziom szkoleniowy i typ pytania. Wszystkie pytania musiały spełniać te same reguły i zostały przefiltrowane przez starszego radiologa, aby upewnić się, że są poprawne i uczciwe przed użyciem.
Jak przebiegał eksperyment egzaminacyjny
Z tych banków pytań badacze losowo wybrali 14 pytań od AI i 14 pytań od ekspertów i zmieszali je w jeden 28‑elementowy test online. Czterdziestu rezydentów radiologii w drugim lub trzecim roku wzięło udział w tym teście zamkniętym. Dla każdego zadania wybierali odpowiedź, zgadywali, czy pytanie pochodzi od DeepSeek, czy od eksperta, oraz oceniali trudność, zgodność z programem, ogólną jakość i wiarygodność opowiedzianej historii klinicznej. Taki układ pozwolił zespołowi porównać nie tylko wyniki, ale też wrażenia uczestników.

Gdzie AI dorównuje twórcom‑ludziom
W całym teście rezydenci odpowiedzieli poprawnie na podobny odsetek pytań niezależnie od tego, czy zostały napisane przez DeepSeek, czy przez ekspertów, i nie byli zbyt skuteczni w rozróżnianiu źródła poszczególnych pozycji. Dla najprostszych typów pytań, dotyczących podstawowych faktów i jasnych reguł, pytania DeepSeek działały bardzo podobnie do tych napisanych przez ludzi. Obiektywne miary stosowane w testach, takie jak zdolność pytania do rozróżniania silniejszych i słabszych studentów, także sugerowały, że te podstawowe pytania wygenerowane przez AI były na ogół solidne. Oznacza to, że AI mogłaby pomóc w budowaniu dużych banków prostych pytań utrwalających kluczowe pojęcia, odciążając wykładowców.
Gdzie wciąż prowadzi ludzki osąd
Obraz zmieniał się, gdy pytania obejmowały bogatsze opowieści o pacjencie i trudniejsze decyzje. Dla pytań o średniej złożoności z krótkimi scenariuszami klinicznymi rezydenci odpowiadali poprawnie na podobnym poziomie zarówno na pytania AI, jak i ekspertów, ale oceniali wersje eksperckie jako bardziej realistyczne i nieco trudniejsze — zwłaszcza starsi rezydenci z większym doświadczeniem praktycznym. W przypadku najbardziej złożonych pytań, opartych na wieloetapowych seriach przypadków i ocenach klinicznych, rezydenci uzyskali wyraźnie wyższe wyniki na pozycjach napisanych przez ekspertów niż na wersjach DeepSeek. Osoby szkolące się, szczególnie we wcześniejszych latach, wydawały się częściej wprowadzone w błąd lub zdezorientowane przez płytsze, mniej autentyczne sytuacje kliniczne stworzone przez AI.
Jak ludzie i AI mogą współpracować
Autorzy proponują podejście warstwowe. DeepSeek i podobne narzędzia dobrze nadają się do tworzenia szkiców dużej liczby podstawowych, dobrze ustrukturyzowanych pytań obejmujących standardowe fakty i definicje. Eksperci powinni natomiast pozostać odpowiedzialni za pytania testujące sposób myślenia lekarzy w sytuacjach niepewności, rozważania opcji i stosowanie wartości w rzeczywistych warunkach klinicznych. AI może też pomagać recenzentom wykrywać słabsze pytania, podczas gdy eksperci dostarczają niuansów, które wynikają tylko z opieki nad pacjentami. Przy wyraźnych granicach i starannej kontroli połączenie AI z eksperckim osądem może uczynić egzaminy medyczne zarówno bardziej efektywnymi w przygotowaniu, jak i lepszymi w pomiarze tego, co naprawdę się liczy.
Cytowanie: Qian, W., Li, K., Cao, F. et al. Performance of DeepSeek in the generation of in-training examination questions in radiology resident education. npj Digit. Med. 9, 384 (2026). https://doi.org/10.1038/s41746-026-02568-8
Słowa kluczowe: kształcenie w radiologii, pytania egzaminacyjne, sztuczna inteligencja, duże modele językowe, szkolenie medyczne