Clear Sky Science · pl

Wydajność DeepSeek przy tworzeniu pytań egzaminacyjnych w trakcie szkolenia rezydentów radiologii

· Powrót do spisu

Dlaczego lepsze pytania testowe mają znaczenie

Lekarze zajmujący się obrazowaniem medycznym w trakcie szkolenia regularnie zdają testy, by sprawdzić swoją wiedzę i umiejętność opieki nad pacjentami. Tworzenie tych pytań zabiera ekspertom dużo czasu, więc uczelnie zastanawiają się, czy narzędzia sztucznej inteligencji mogą pomóc. W tym badaniu sprawdzono, czy duży model językowy o nazwie DeepSeek może odciążyć część tej pracy, tworząc pytania wielokrotnego wyboru dla rezydentów z radiologii, oraz gdzie wciąż niezbędna jest rola ludzkich ekspertów.

Figure 1. Sztuczna inteligencja pomaga wykładowcom radiologii tworzyć pytania egzaminacyjne, a lekarze w szkoleniu korzystają z nich, aby uczyć się skuteczniej.
Figure 1. Sztuczna inteligencja pomaga wykładowcom radiologii tworzyć pytania egzaminacyjne, a lekarze w szkoleniu korzystają z nich, aby uczyć się skuteczniej.

Co badacze chcieli ustalić

Zespół z Chin skoncentrował się na kluczowym elemencie szkolenia w radiologii: egzaminach wewnętrznych, które śledzą postępy rezydentów każdego roku. Porównali dwa dopasowane zestawy pytań egzaminacyjnych. Jeden zestaw napisali doświadczeni radiolodzy zgodnie z krajowymi standardami szkoleniowymi. Drugi zestaw wygenerował w języku chińskim model DeepSeek przy użyciu starannie zaprojektowanych poleceń określających temat, poziom szkoleniowy i typ pytania. Wszystkie pytania musiały spełniać te same reguły i zostały przefiltrowane przez starszego radiologa, aby upewnić się, że są poprawne i uczciwe przed użyciem.

Jak przebiegał eksperyment egzaminacyjny

Z tych banków pytań badacze losowo wybrali 14 pytań od AI i 14 pytań od ekspertów i zmieszali je w jeden 28‑elementowy test online. Czterdziestu rezydentów radiologii w drugim lub trzecim roku wzięło udział w tym teście zamkniętym. Dla każdego zadania wybierali odpowiedź, zgadywali, czy pytanie pochodzi od DeepSeek, czy od eksperta, oraz oceniali trudność, zgodność z programem, ogólną jakość i wiarygodność opowiedzianej historii klinicznej. Taki układ pozwolił zespołowi porównać nie tylko wyniki, ale też wrażenia uczestników.

Figure 2. Porównanie pytań napisanych przez AI i ludzi dla prostych faktów versus złożonych przypadków pacjentów, aby pokazać, gdzie każda metoda sprawdza się najlepiej.
Figure 2. Porównanie pytań napisanych przez AI i ludzi dla prostych faktów versus złożonych przypadków pacjentów, aby pokazać, gdzie każda metoda sprawdza się najlepiej.

Gdzie AI dorównuje twórcom‑ludziom

W całym teście rezydenci odpowiedzieli poprawnie na podobny odsetek pytań niezależnie od tego, czy zostały napisane przez DeepSeek, czy przez ekspertów, i nie byli zbyt skuteczni w rozróżnianiu źródła poszczególnych pozycji. Dla najprostszych typów pytań, dotyczących podstawowych faktów i jasnych reguł, pytania DeepSeek działały bardzo podobnie do tych napisanych przez ludzi. Obiektywne miary stosowane w testach, takie jak zdolność pytania do rozróżniania silniejszych i słabszych studentów, także sugerowały, że te podstawowe pytania wygenerowane przez AI były na ogół solidne. Oznacza to, że AI mogłaby pomóc w budowaniu dużych banków prostych pytań utrwalających kluczowe pojęcia, odciążając wykładowców.

Gdzie wciąż prowadzi ludzki osąd

Obraz zmieniał się, gdy pytania obejmowały bogatsze opowieści o pacjencie i trudniejsze decyzje. Dla pytań o średniej złożoności z krótkimi scenariuszami klinicznymi rezydenci odpowiadali poprawnie na podobnym poziomie zarówno na pytania AI, jak i ekspertów, ale oceniali wersje eksperckie jako bardziej realistyczne i nieco trudniejsze — zwłaszcza starsi rezydenci z większym doświadczeniem praktycznym. W przypadku najbardziej złożonych pytań, opartych na wieloetapowych seriach przypadków i ocenach klinicznych, rezydenci uzyskali wyraźnie wyższe wyniki na pozycjach napisanych przez ekspertów niż na wersjach DeepSeek. Osoby szkolące się, szczególnie we wcześniejszych latach, wydawały się częściej wprowadzone w błąd lub zdezorientowane przez płytsze, mniej autentyczne sytuacje kliniczne stworzone przez AI.

Jak ludzie i AI mogą współpracować

Autorzy proponują podejście warstwowe. DeepSeek i podobne narzędzia dobrze nadają się do tworzenia szkiców dużej liczby podstawowych, dobrze ustrukturyzowanych pytań obejmujących standardowe fakty i definicje. Eksperci powinni natomiast pozostać odpowiedzialni za pytania testujące sposób myślenia lekarzy w sytuacjach niepewności, rozważania opcji i stosowanie wartości w rzeczywistych warunkach klinicznych. AI może też pomagać recenzentom wykrywać słabsze pytania, podczas gdy eksperci dostarczają niuansów, które wynikają tylko z opieki nad pacjentami. Przy wyraźnych granicach i starannej kontroli połączenie AI z eksperckim osądem może uczynić egzaminy medyczne zarówno bardziej efektywnymi w przygotowaniu, jak i lepszymi w pomiarze tego, co naprawdę się liczy.

Cytowanie: Qian, W., Li, K., Cao, F. et al. Performance of DeepSeek in the generation of in-training examination questions in radiology resident education. npj Digit. Med. 9, 384 (2026). https://doi.org/10.1038/s41746-026-02568-8

Słowa kluczowe: kształcenie w radiologii, pytania egzaminacyjne, sztuczna inteligencja, duże modele językowe, szkolenie medyczne