Clear Sky Science · pl
Integracja świadomości sprawiedliwości z modelami przetwarzania języka w medycynie
Dlaczego ma to znaczenie dla opieki zdrowotnej w praktyce
Współczesna medycyna w coraz większym stopniu opiera się na sztucznej inteligencji wytrenowanej na elektronicznych rekordach medycznych. Tymczasem podstawowa informacja o pacjentach — ich rasa i pochodzenie etniczne — często jest nieobecna lub zapisywana niespójnie. Ta luka utrudnia wykrywanie i naprawianie nierówności zdrowotnych. Artykuł bada, czy komputery mogą wiarygodnie odtwarzać informacje o rasie z notatek lekarzy, jednocześnie unikając nierównego traktowania różnych grup, oraz co to mówi o uprzedzeniach w samych rekordach i narzędziach AI.

Ukryte luki w dokumentacji medycznej
Wiele szpitali i przychodni pozostawia pola dotyczące rasy i pochodzenia etnicznego puste albo używa przestarzałych kategorii. Braki te to nie tylko błędy biurowe; mogą zniekształcać statystyki dotyczące tego, kto choruje, kto otrzymuje jaką opiekę i kto korzysta z nowych terapii. Jednocześnie fragmenty wolnego tekstu w dokumentacji — historia społeczna i notatki o czynnikach ryzyka — często wspominają o pochodzeniu pacjenta mimochodem. Autorzy zastanawiali się, czy te rozproszone wskazówki w tekście nieustrukturyzowanym można przekształcić w uporządkowany, spójny zapis rasy, dostarczający pełniejszego obrazu nierówności w zdrowiu i korzystaniu z opieki.
Uczenie komputerów czytania notatek lekarskich
Zespół pracował na dużej kanadyjskiej bazie danych podstawowej opieki zdrowotnej zawierającej zapisy około 400 000 pacjentów z ponad 400 klinik. Z tej bazy wybrali reprezentatywną próbę niemal 4 000 dorosłych pacjentów i pieczołowicie oznaczyli zdania, które wyraźnie odnosiły się do rasy lub pochodzenia etnicznego, używając dziewięciu kategorii, takich jak Czarnoskóry, Wschodnioazjatycki, Latynoamerykański i Rdzenny, oraz kategorii „brak”, gdy nie występowała wzmianka. Ponieważ w większości notatek rasa nigdy nie jest wspomniana, zastosowano strategię „uczenia aktywnego”, w której początkowy model AI wskazywał notatki, co do których był najbardziej niepewny, aby annotatorzy ludzie mogli skupić się na przypadkach najprawdopodobniej zawierających informacje o rasie.

Budowanie sprawiedliwszych modeli językowych
Badacze porównali kilka popularnych modeli językowych opartych na transformatorach — jak BERT i jego kliniczne warianty — z autorskim hierarchicznym konwolucyjnym sieciowym modelem. W przeciwieństwie do standardowych modeli traktujących notatkę jako jedną długą sekwencję słów, model hierarchiczny odzwierciedla sposób, w jaki piszą klinicyści: przetwarza słowa w zdaniach, następnie zdania w notatce, a w końcu notatki pacjenta w czasie. Zespół eksperymentował także z treningiem „świadomym sprawiedliwości”, dodając do funkcji straty terminy karzące duże różnice w wskaźnikach błędów między grupami rasowymi i regulując, na ile model „przywiązuje wagę” do pomyłek dla grup niedoreprezentowanych.
Co zadziałało, a co nie
Model hierarchiczny przewyższał wszystkie modele typu transformer w ogólnych wynikach, osiągając bardzo wysoką dokładność i bardziej zrównoważone wyniki między kategoriami rasowymi, nawet przed zastosowaniem korekt sprawiedliwości. Natomiast kilka transformatorów osiągało dobre wyniki dla pacjentów białych, ale pomijało wiele przypadków w mniejszych grupach, czasem przewidując tylko kategorię większościową. Dodanie ograniczeń związanych ze sprawiedliwością znacząco pomogło niektórym modelom, zwłaszcza BERT-owi, czyniąc ich przewidywania zarówno dokładniejszymi, jak i bardziej równomiernie rozłożonymi między grupy. Jednak te same ograniczenia zaszkodziły innym modelom, w tym modelowi hierarchicznemu, a w jednym klinicznym transformatorze spowodowały regresję w stronę przewidywań większościowych. Badanie wykazało też utrzymujące się różnice na przecięciu rasy, płci i wieku — najtrudniejsze do sklasyfikowania pozostały grupy rdzenne, osoby o mieszanym pochodzeniu oraz niektóre podgrupy azjatyckie i latynoamerykańskie.
Co to mówi o uprzedzeniach
Ponieważ najlepiej działający model mógł wiarygodnie wykrywać informacje o rasie, gdy były one obecne, autorzy twierdzą, że główny problem nie polega na braku sygnału w notatkach, lecz na tym, jak modele i zbiory danych wchodzą w interakcje z długotrwałymi strukturalnymi nierównościami. Uprzedzenia wkradały się przez niedoreprezentację niektórych grup, przez wzorce w opisie pacjentów przez klinicystów, a nawet przez proces uczenia aktywnego, który wybierał notatki do oznakowania. Trening świadomy sprawiedliwości zmniejszył część dysproporcji, lecz nie był w stanie w pełni przezwyciężyć tych przyczyn leżących u źródła, a jego efekt zależał w dużym stopniu od konstrukcji modelu.
Wniosek dla pacjentów i klinicystów
Praca pokazuje, że technicznie możliwe jest zbudowanie modeli językowych, które z wysoką dokładnością i większą sprawiedliwością odtwarzają informacje o rasie z tekstu klinicznego, zwłaszcza gdy architektury respektują warstwową strukturę notatek medycznych. Jednocześnie jasno wynika z niej, że same algorytmy nie naprawią nierówności, które mają źródło w praktykach dokumentacyjnych i samym systemie opieki zdrowotnej. Aby AI wspierała sprawiedliwszą opiekę, sprawiedliwość musi być uwzględniana na każdym etapie — od sposobu zbierania i próbkowania danych, przez trening i audyt modeli, po ich stosowanie — podczas gdy instytucje zdrowotne poprawiają sposób rejestrowania i wykorzystywania informacji społecznych oraz demograficznych.
Cytowanie: Abulibdeh, R., Lin, Y., Ahmadi, S. et al. Integration of fairness-awareness into clinical language processing models. Commun Med 6, 178 (2026). https://doi.org/10.1038/s43856-026-01433-9
Słowa kluczowe: kliniczne przetwarzanie języka naturalnego, sprawiedliwość algorytmiczna, elektroniczne rekordy medyczne, równouprawnienie w opiece zdrowotnej, dane o rasie i pochodzeniu etnicznym