Clear Sky Science · ru

Обнаружение подмены образцов в антидопинговых расследованиях с помощью машинного обучения

2026-03-17 · Назад к списку

Почему важно ловить хитрых мошенников

Элитарный спорт базируется на доверии: когда спортсмен побеждает, мы хотим верить в чистоту результата. Современные допинг-тесты очень чувствительны, но некоторые спортсмены пытаются их обойти, тайно подменяя образцы мочи. В этом исследовании показано, как машинное обучение может выявлять случаи повторного использования спортсменом ранее сданной «чистой» мочи — уловка, которую современными рутинными проверками крайне трудно обнаружить. Работа указывает на новые пути защиты честной борьбы, позволяющие скрытно сканировать большие базы данных тестов в поисках скрытых следов вмешательства.

Скрытая лазейка в текущем тестировании

Антидопинговые лаборатории обычно анализируют мочу, поскольку многие запрещённые вещества и их метаболиты дольше обнаружимы именно там. Профили естественных стероидных гормонов спортсменов фиксируются в Паспортe биологического профиля спортсмена на протяжении лет, поэтому резкий скачок в этих показателях может инициировать расследование. Подмена образца чужой мочой нарушает этот долгосрочный паттерн и часто обнаруживается. Реальная «слепая зона» возникает, когда спортсмен тайно повторно использует свою собственную ранее сданную, свободную от допинга мочу. В таком случае стероидный профиль идеально вписывается в историю, и если образец тестируется в другой лаборатории или значительно позднее, в настоящее время нет автоматического способа заметить, что два образца по сути одинаковы.

Преобразование химии мочи в поисковые шаблоны

Авторы решили эту проблему, сосредоточившись на детальном «отпечатке» набора натуральных стероидов и их соотношений в моче. Они собрали 67 651 стероидный профиль из аккредитованной лаборатории Всемирного антидопингового агентства (WADA), собранных в 2021–2023 годах, охватывающих как мужчин, так и женщин. Каждый профиль содержит ключевые гормоны, такие как тестостерон, и несколько связанных соединений, а также соотношения между ними. Поскольку реальные случаи повторного использования образцов редки и конфиденциальны, команда сочетала эти реальные данные с искусственно созданными парами профилей: некоторые пары были сделаны «похожими» путём добавления небольшого, реалистичного измерительного шума, а другие — «непохожими» путём случайной стыковки образцов от разных спортсменов. Это обеспечило сбалансированный обучающий материал для компьютерной модели, чтобы она научилась распознавать, каким на практике бывает «почти идентичное».

Как работает умный детектор

Ядром системы является тип искусственной нейронной сети, известный как сверточная сеть, широко применяемая в распознавании изображений. Здесь, вместо картинок, на вход подаётся пара стероидных профилей, расположенных рядом. Сеть сканирует признаки, чтобы уловить тонкие локальные взаимосвязи, например как двигаются вместе два гормона и их соотношение. Чтобы сделать данные более управляемыми и интерпретируемыми, исследователи также применили метод главных компонент (PCA), проецируя все профили в трёхмерное пространство, где простые меры расстояния могут выделять близкие совпадения. В ходе обучения сеть учится выдавать вероятность того, что две профили принадлежат одной и той же исходной моче, отличая реальную схожесть от обычных биологических различий между спортсменами и во времени.

Проверка метода на практике

Команда оценивала подход по нескольким направлениям. Сначала они тестировали модель на отложенных данных за каждый год, используя профили, не попадавшие в обучение, но подвергнутые ожидательной погрешности измерения в пределах 15%. Сверточная сеть стабильно демонстрировала очень высокую точность, правильно идентифицируя похожие пары при низком уровне ложных срабатываний, и превосходила более традиционные методы, такие как логистическая регрессия, опорные векторы и деревья решений. Затем система была проверена на более чем 800 «контрольных» образцах — реальных образцах мочи, которые лаборатории перепроверяли при слегка отличающихся процедурах. Они дают реалистичную имитацию повторных или повторно использованных образцов. И снова сеть показала отличные результаты как для мужчин, так и для женщин, с высокой чувствительностью (нахождение истинных совпадений) и специфичностью (избежание ложных совпадений), что свидетельствует о её устойчивости к реальному лабораторному шуму и биологической вариабельности.

Что это значит для честного спорта

Для неспециалистов главный вывод таков: стало практически возможным автоматически просматривать огромные антидопинговые базы данных на предмет признаков того, что якобы новый образец мочи на самом деле является почти точной копией старого. Предложенная система машинного обучения не заменяет существующие тесты на запрещённые вещества; она добавляет мощную фоновую проверку, которая может помечать подозрительно похожие образцы для более тщательной судебно-биологической проверки. Хотя метод частично опирается на смоделированные данные и использует сложные «чёрные ящики», не полностью прозрачные модели, он по-прежнему предоставляет спортивным властям практический новый инструмент. Если интегрировать его в текущие системы Паспортов биологических показателей спортсменов, приём повторного использования «чистой» мочи станет гораздо рискованнее, что укрепит уверенность в том, что медали завоёвываются на основе заслуг, а не манипуляций.

Цитирование: Rahman, M.R., Piper, T., Thevis, M. et al. Detection of sample swapping in anti-doping investigations using machine learning. Sci Rep 16, 9230 (2026). https://doi.org/10.1038/s41598-026-43502-y

Ключевые слова: антидопинг, профили стероидов в моче, подмена образцов, машинное обучение, честность в спорте