Clear Sky Science · ru

Оптимизация мер противоэпидемического вмешательства с помощью обучения с подкреплением на данных эпидемии COVID-19 в Великобритании

· Назад к списку

Умные инструменты для сложных решений в здравоохранении

Когда новая болезнь охватывает страну, руководителям приходится быстро решать, насколько сильно ограничивать повседневную жизнь. Закрыв всё, можно спасти жизни, но разрушить экономику; действуя слишком медленно, можно переполнить больницы. В этой работе исследуется, может ли форма искусственного интеллекта, называемая обучением с подкреплением, помочь правительствам находить более разумные, сбалансированные ответы, используя детализированные симуляции того, как вирус вроде COVID‑19 фактически распространяется в реальных сообществах.

Моделирование страны в компьютере

Вместо простых уравнений, которые рассматривают людей как одинаковых, авторы опираются на Covasim — сложную компьютерную модель, отслеживающую тысячи виртуальных людей в их повседневной жизни: где они живут, работают, учатся и взаимодействуют. Каждый смоделированный человек имеет возраст, место в семье, школьных и рабочих сетях, а также состояние здоровья, которое может меняться от здорового до инфицированного, выздоровевшего или умершего. Тщательно подбирая параметры модели, команда делает так, чтобы виртуальная Великобритания вела себя как настоящая во время первой волны COVID‑19, согласуясь с официальными данными о случаях и смертях начала 2020 года. Этот шаг калибровки важен: любая стратегия, которую обучит компьютер, должна работать в мире, похожем на наш, а не в игрушечной вселенной.

Figure 1
Рисунок 1.

Обучение цифрового советника действовать

Когда модель начинает вести себя как реальность, исследователи подключают обучение с подкреплением — раздел ИИ, в котором программный «агент» многократно пробует решения и получает награды или штрафы в зависимости от результатов. Здесь агент может каждую смоделированную неделю регулировать три основных рычага: жесткость частичных локдаунов, объём тестирования и интенсивность отслеживания контактов. Система вознаграждений сконструирована так, чтобы учитывать две конкурирующие цели: удерживать низкий уровень инфекций, тяжёлых заболеваний и смертей и одновременно минимизировать экономический ущерб от закрытия рабочих мест и изоляции людей. Прогоняя тысячи симулированных эпидемий, агент обнаруживает, какие сочетания и сроки мер дают наивысшую суммарную оценку.

Нахождение лучшего баланса по сравнению с фиксированными правилами

Исследование сравнивает несколько методов обучения и способов описания действий агента. Один из подходов, который рассматривает действия как плавные значения на шкале, а не как набор фиксированных опций, показывает особенно хорошие результаты. Он учится быстро реагировать, когда вирус начинает распространяться, вводя короткие, но жёсткие ограничения в сочетании с интенсивным тестированием и трассировкой. По мере того как вспышка в модели берётся под контроль, ограничения ослабляются, при этом часть тестирования и трассировки сохраняется, а при угрозе повторного всплеска локдауны снова кратко ужесточаются. Этот гибкий шаблон удерживает общее число инфекций в модели примерно на уровне 300 000, что значительно ниже показателей при реальной политике, применённой в Великобритании в тот же период, и также ниже по сравнению с простым правилом «семь дней открыто, семь дней закрыто». Экономические потери в модели сокращаются более чем на две трети по сравнению с этой жёсткой циклической стратегией локдауна.

Figure 2
Рисунок 2.

Время — решающий фактор

Авторы также анализируют, как разные стратегии влияют на эффективное репродукционное число в реальном времени — показатель того, сколько новых инфекций даёт каждый случай. В их симуляциях политика, разработанная ИИ, снижает это число ниже критического порога единицы примерно на месяц раньше, чем реальная реакция Великобритании. Это, казалось бы, небольшое смещение резко сокращает накопленные инфекции, подчёркивая, какое значение имеет раннее и хорошо продуманное действие. Они дополнительно тестируют выученную политику на очень другом наборе данных, используя волну COVID‑19 в Гонконге в 2022 году, и обнаруживают, что та же стратегия работает хорошо и там, что указывает на то, что выученные правила отражают общие принципы, а не переобучаются под одну страну.

Что это значит для будущих вспышек

Для неспециалистов главный вывод в том, что не нужно выбирать вслепую между спасением жизней и сохранением средств к существованию. Сочетая детализированные симуляции того, как вирус движется по реальным социальным сетям, с ИИ, который учится методом проб и ошибок, можно предоставить политикам основанные на данных рекомендации, адаптирующиеся по мере изменения условий. Авторы подчёркивают, что такие инструменты не предназначены заменить человеческое суждение, а служат мощными вспомогательными средствами для принятия решений, позволяя быстрее исследовать множество сценариев «что‑если», чем это под силу людям. По мере появления новых эпидемий этот подход может помочь руководителям действовать раньше и точнее, используя целевое тестирование, трассировку и частичные закрытия, чтобы держать заболевание под контролем, сохраняя при этом как можно больше нормальной жизни и экономической активности.

Цитирование: Zhang, B., Chen, Y., Li, H. et al. Optimization of infectious disease intervention measures using reinforcement learning with UK COVID-19 epidemic data. Sci Rep 16, 10627 (2026). https://doi.org/10.1038/s41598-026-39377-8

Ключевые слова: политика в отношении COVID-19, обучение с подкреплением, моделирование эпидемии, нефармакологические вмешательства, стратегия общественного здравоохранения