Clear Sky Science · pl

Ocena trzech chatbotów sztucznej inteligencji do tworzenia testowych pytań wielokrotnego wyboru z hematologii dla studentów medycyny

· Powrót do spisu

Inteligentniejsze pytania egzaminacyjne dla lekarzy przyszłości

Pytania wielokrotnego wyboru mogą nie brzmieć ekscytująco, ale w dyskretny sposób kształtują umiejętności przyszłych lekarzy. Każde pytanie na egzaminie może wpływać na to, jak studenci myślą o prawdziwych pacjentach. W badaniu postawiono aktualne pytanie: czy nowoczesne chatboty oparte na sztucznej inteligencji mogą pomóc zapracowanym nauczycielom medycyny szybciej tworzyć dobre pytania egzaminacyjne z zakresu chorób krwi, bez utraty jakości czy bezpieczeństwa?

Jak SI pomagała tworzyć pytania egzaminacyjne

Badacze skupili się na trzech szeroko stosowanych chatbotach generujących tekst. Poprosili każdy system o napisanie 50 pytań wielokrotnego wyboru z hematologii, dziedziny zajmującej się zaburzeniami krwi, takimi jak anemia i białaczka. Pytania miały obejmować pięć powszechnych tematów pojawiających się na egzaminach i w praktyce klinicznej: pancytopenię (obniżone liczby wszystkich elementów morfotycznych krwi), anemię, trombocytopenię (niską liczbę płytek) oraz dwie grupy nowotworów krwi nazywane zespołami mieloproliferacyjnymi i limfoproliferacyjnymi. Łącznie chatboty wygenerowały 150 pytań w mniej niż pół minuty na system — ogromna oszczędność czasu w porównaniu z pisaniem ich ręcznie.

Figure 1
Figure 1.

Analiza pytań stworzonych przez SI

Samo tempo to za mało, jeśli pytania są błędne, mylące lub niesprawiedliwe. Aby ocenić jakość, trzech doświadczonych nauczycieli hematologii — nie wiedząc, który chatbot napisał które pytanie — oceniło każdy element przy użyciu szczegółowego formularza. Oceniali poprawność naukową, relewantność kliniczną, jasność sformułowania, wiarygodność błędnych odpowiedzi oraz ogólną jakość w skali pięciopunktowej. Oceniali również, czy każde pytanie miało odpowiedni poziom trudności dla studentów medycyny i czy potrafiło odróżnić silniejszych studentów od słabszych. Pytania, które uzyskały co najmniej 15 na 25 punktów, uznano za dopuszczalne do użycia; inne wymagały poprawy lub odrzucenia.

Który chatbot wypadł najlepiej?

Wszystkie trzy systemy wygenerowały w przeważającej mierze solidne pytania, ale jeden model wyróżniał się bardziej. W ocenach ekspertów ten chatbot uzyskał najwyższe wyniki pod względem poprawności, relewantności klinicznej i wiarygodności błędnych odpowiedzi. Wszystkie jego 50 pytań osiągnęło próg akceptacji i żadne nie wymagało zmian. Pozostałe dwa modele również poradziły sobie dobrze: ponad dziewięć z dziesięciu ich pytań było wystarczająco dobrych, lecz wymagało drobnych poprawek, często dlatego, że odpowiedź błędna była zbyt oczywista lub jakiś szczegół mógł być jaśniejszy. Ogólnie eksperci zgodzili się, że wszystkie trzy narzędzia potrafią szybko wygenerować materiał egzaminacyjny bardzo bliski gotowości do użycia w dydaktyce.

Figure 2
Figure 2.

Myślenie, nie tylko pamięciowe powtarzanie

Zespół zbadał także, jaki rodzaj myślenia wymagają pytania tworzone przez SI. Korzystając z taksonomii Blooma — ramy używanej przez edukatorów do klasyfikacji umiejętności poznawczych — przyporządkowali pytania do prostszej wiedzy i rozumienia oraz do umiejętności wyższego rzędu, takich jak stosowanie wiedzy, analiza sytuacji i ocenianie opcji. Ku zaskoczeniu, chatboty wygenerowały głównie pytania wyższego rzędu. W przypadku jednego modelu ponad 90% pozycji wymagało od studentów rozumowania nad scenariuszami klinicznymi, a nie jedynie odtwarzania faktów. Pytania polegające wyłącznie na przywołaniu informacji były stosunkowo rzadkie we wszystkich trzech systemach. Ten wzorzec sugeruje, że duże modele językowe, trenowane na ogromnych zbiorach powiązanego tekstu, naturalnie skłaniają się ku scenariuszom kontekstowym i rozwiązywaniu problemów zamiast prostych zadań pamięciowych.

Obietnica, ograniczenia i potrzeba partnerstwa z ludźmi

Pomimo tych zalet, badanie ujawniło istotne luki. Żaden z chatbotów nie zaproponował spontanicznie pytań z materiałem obrazowym, które są kluczowe w chorobach krwi, gdzie lekarze muszą interpretować obrazy z mikroskopu i wykresy laboratoryjne. Po bezpośrednim zapytaniu o pytania obrazowe dwa systemy przyznały, że nie potrafią ich dostarczyć, a jeden wygenerował niskiej jakości próbę. Badanie opierało się również na opinii ekspertów, a nie na rzeczywistych danych egzaminacyjnych od studentów, więc nie można w pełni potwierdzić, jak te pytania zachowałyby się w warunkach egzaminu. Autorzy podkreślają, że nauczyciele nadal muszą sprawdzać fakty, dopracowywać sformułowania i zapewniać, że kluczowe podstawowe koncepcje są odpowiednio uwzględnione.

Co to oznacza dla przyszłego kształcenia medycznego

Dla czytelnika spoza zawodu najważniejsze jest to, że SI nie zastępuje nauczycieli medycyny, ale staje się potężnym asystentem. W badaniu chatboty szybko wygenerowały przeważnie poprawne, klinicznie realistyczne pytania, które pomagają studentom ćwiczyć podejmowanie decyzji w chorobach krwi. Jeden model w szczególności wyprodukował pytania o tak wysokiej jakości, że eksperci użyliby ich z niewielkimi lub żadnymi zmianami. Mimo to maszyny pomijały prostsze sprawdziany wiedzy i same nie radziły sobie z materiałem wizualnym. Autorzy wnioskują, że najlepsze podejście to partnerstwo: SI wykonuje ciężką pracę przy tworzeniu szkiców zróżnicowanych pytań, podczas gdy eksperci ludzie kierują poleceniami, uzupełniają brakujące podstawy, weryfikują treść i dbają o aktualność zgodnie z zmieniającymi się wytycznymi medycznymi.

Cytowanie: Boufrikha, W., Sallem, A., Laabidi, B. et al. Evaluation of three artificial intelligence chatbots for generating clinical hematology multiple choice questions for medical students. Sci Rep 16, 5802 (2026). https://doi.org/10.1038/s41598-026-36839-x

Słowa kluczowe: edukacja medyczna, sztuczna inteligencja, hematologia, pytania wielokrotnego wyboru, chatboty