Clear Sky Science · pl
Wykrywanie podmiany próbek w śledztwach antydopingowych za pomocą uczenia maszynowego
Dlaczego warto łapać sprytnych oszustów
Sporty na najwyższym poziomie opierają się na zaufaniu: kiedy zawodnik wygrywa, chcemy wierzyć, że wynik jest wolny od dopingu. Współczesne testy są bardzo czułe, jednak niektórzy zawodnicy próbują je przechytrzyć, potajemnie podmieniajc próbki moczu. W tym badaniu pokazano, jak uczenie maszynowe może wykryć sytuacje, gdy zawodnik używa wcześniej pobranej „czystej” próbki — sztuczki niezwykle trudnej do wykrycia przy rutynowych kontrolach. Praca wskazuje nowe sposoby ochrony fair play poprzez dyskretne przeszukiwanie ogromnych baz danych testów w poszukiwaniu ukrytych śladów manipulacji.
Ukryta luka w obecnych badaniach
Laboratoria antydopingowe zwykle analizują mocz, ponieważ wiele zakazanych substancji i ich produktów rozpadu pozostaje wykrywalnych tam przez dłuższy czas. Profile naturalnych hormonów steroidowych zawodników są monitorowane przez Biologiczny Paszport Zawodnika przez lata, więc nagły skok tych wartości może uruchomić dochodzenie. Podmiana moczu innej osoby zaburza ten długoterminowy wzorzec i często jest wykrywalna. Prawdziwym punktem krytycznym jest jednak sytuacja, gdy zawodnik potajemnie używa własnej wcześniejszej, wolnej od dopingu próbki. W takim przypadku wzorzec steroidowy idealnie pasuje do historii zawodnika, a jeśli próbka jest badana w innym laboratorium lub długo po pierwotnym pobraniu, obecnie nie ma automatycznego sposobu, by zauważyć, że dwie próbki w istocie są niemal identyczne.

Przekształcanie chemii moczu w przeszukiwalne wzorce
Autorzy podjęli to wyzwanie, koncentrując się na szczegółowym „odcisku palca” utworzonym przez zestaw naturalnych steroidów i ich stosunków w moczu. Zebrali 67 651 profili steroidowych z laboratorium akredytowanego przez Światową Agencję Antydopingową (WADA), zebranych w latach 2021–2023, obejmujących zarówno zawodników płci męskiej, jak i żeńskiej. Każdy profil zawiera kluczowe hormony, takie jak testosteron i kilka powiązanych związków, oraz stosunki między nimi. Ponieważ prawdziwe przypadki ponownego użycia próbek są rzadkie i objęte tajemnicą, zespół połączył dane rzeczywiste z starannie przygotowanymi syntetycznymi parami profili: niektóre pary uczyniono „podobnymi” przez dodanie małego, realistycznego szumu pomiarowego, a inne — „niepodobnymi” przez losowe łączenie próbek od różnych zawodników. To zapewniło zrównoważony materiał treningowy dla modelu komputerowego, by nauczył się, jak w praktyce wygląda „prawie identyczne”.
Jak działa inteligentny wykrywacz
Rdzeniem systemu jest rodzaj sztucznej sieci neuronowej znanej jako sieć konwolucyjna, szeroko stosowana w rozpoznawaniu obrazów. Tutaj zamiast obrazów wejściem jest para profili steroidowych ustawionych obok siebie. Sieć skanuje cechy, aby wychwycić subtelne lokalne zależności, takie jak współruch dwóch hormonów i ich stosunku. Aby uczynić dane bardziej przystępnymi i interpretowalnymi, badacze użyli także techniki zwanej analizą składowych głównych, aby odwzorować wszystkie profile w przestrzeni trójwymiarowej, gdzie proste miary odległości mogą uwidocznić bliskie dopasowania. W trakcie treningu sieć uczy się zwracać prawdopodobieństwo, że dwa profile pochodzą z tej samej próby moczu, rozróżniając rzeczywiste podobieństwo od normalnych biologicznych różnic występujących między zawodnikami i w czasie.
Sprawdzenie metody w praktyce
Zespół ocenił swoje podejście na kilku płaszczyznach. Najpierw testowano je na danych wyłączonych z treningu z każdego roku, używając profili niewidzianych podczas szkolenia, ale zmodyfikowanych w granicach oczekiwanej niepewności pomiaru wynoszącej 15%. Sieć konwolucyjna konsekwentnie osiągała bardzo wysoką dokładność, poprawnie identyfikując podobne pary przy niskim poziomie fałszywych alarmów, i przewyższała bardziej tradycyjne metody, takie jak regresja logistyczna, maszyny wektorów nośnych czy modele drzewiaste. Następnie wystawiono system na próbę z ponad 800 „próbami potwierdzającymi” — rzeczywistymi próbkami moczu, które laboratoria ponownie analizowały przy nieco innych procedurach. Stanowią one realistyczne zastępstwo dla powtarzanych lub ponownie użytych próbek. Znowu sieć sprawdziła się znakomicie zarówno dla mężczyzn, jak i kobiet, z doskonałą czułością (wychwytując prawdziwe dopasowania) i specyficznością (unikając fałszywych), co sugeruje, że potrafi radzić sobie z rzeczywistym szumem laboratoryjnym i zmiennością biologiczną.

Co to oznacza dla czystego sportu
Dla czytelników niebędących specjalistami kluczowa konkluzja jest taka, że automatyczne przeszukiwanie rozległych baz danych antydopingowych w celu wykrycia, iż rzekomo nowa próbka moczu jest w rzeczywistości niemal doskonałą kopią starszej, staje się teraz wykonalne. Proponowane ramy uczenia maszynowego nie zastępują istniejących testów na zabronione substancje; dodają natomiast potężną kontrolę w tle, która może sygnalizować podejrzanie podobne próbki do bliższej analizy kryminalistycznej. Choć metoda częściowo opiera się na danych symulowanych i wykorzystuje złożone modele „czarnej skrzynki”, które nie są w pełni przejrzyste, wciąż oferuje organom sportowym praktyczne nowe narzędzie. Jeśli zostanie zintegrowana z obecnymi systemami Biologicznego Paszportu Zawodnika, może sprawić, że dawniej niewykrywalna praktyka ponownego używania czystego moczu stanie się znacznie ryzykowniejsza, wzmacniając przekonanie, że medale zdobywa się dzięki umiejętnościom, a nie manipulacji.
Cytowanie: Rahman, M.R., Piper, T., Thevis, M. et al. Detection of sample swapping in anti-doping investigations using machine learning. Sci Rep 16, 9230 (2026). https://doi.org/10.1038/s41598-026-43502-y
Słowa kluczowe: antydoping, profile steroidów w moczu, podmiana próbek, uczenie maszynowe, uczciwość w sporcie