Clear Sky Science · ru

Адаптивная система перебалансировки данных для предсказания рисков на дорогах в реальном времени

· Назад к списку

Почему балансировка данных о движении важна для безопасности

Аварии на шоссе — редкие события по сравнению с огромным количеством обычного спокойного движения. С точки зрения безопасности это хорошо, но для компьютерных систем, которые пытаются в реальном времени предсказывать места и моменты возможных столкновений, это создает скрытую проблему. Когда данные переполнены безопасными ситуациями, алгоритмы легко становятся отличными в предсказании «ничего не произойдет» и на бумаге выглядят точными — при этом они тихо пропускают действительно опасные моменты. В этом исследовании авторы прямо противостоят этой несбалансированности, предлагая адаптивный способ «перебалансировки» дорожных данных, чтобы системы предупреждения лучше распознавали редкие, но важные рисковые условия без потери работоспособности в реальном времени.

Figure 1
Figure 1.

Как реальное движение превращают в сигналы предупреждения

Исследователи строят свою систему на подробных траекторных данных с шоссе из большого датасета, собранного с беспилотных самолетов над немецкими автомагистралями. Позиция и скорость каждого транспортного средства отслеживаются множество раз в секунду на участках шестиполосных дорог. Из этой богатой записи движений команда вычисляет широко используемый индикатор безопасности — время до столкновения, которое оценивает, за сколько времени вследующая машина столкнется с впереди идущей, если обе продолжат движение с текущими характеристиками. Когда это время опускается ниже трех секунд, ситуация маркируется как «высокий риск», в противном случае — как «не риск». После агрегации этих показателей в 10‑секундные срезы и фокусировки на шестиполосных дорогах получается примерно девять безопасных образцов на каждый рискованный — сильно скошенный набор данных, отражающий реальные условия на автомагистралях.

Устранение перекоса без потери важной информации

Чтобы справиться с этой асимметрией, исследование сравнивает две распространенные стратегии. Одна, называемая оверсэмплингом, добавляет больше примеров редких рискованных ситуаций путем создания синтетических образцов, похожих на реальные случаи высокого риска. Другая, андерсэмплинг, уменьшает количество безопасных примеров путем случайного удаления части из них. Авторы используют популярный метод оверсэмплинга SMOTE и простой метод случайного андерсэмплинга, применяя их при нескольких фиксированных соотношениях безопасных и рискованных образцов — 1:1, 2:1, 3:1 и 4:1. Затем они прогоняют как исходные, так и измененные наборы данных через четыре модели предсказания: два традиционных метода машинного обучения и две модели глубокого обучения, специализирующиеся на временных рядах. Испытав все эти комбинации, они могут увидеть, как разные способы балансировки данных влияют на способность системы обнаруживать риск, сохраняя при этом распознавание безопасных условий.

Доверьтесь алгоритму в поиске оптимума

Вместо предположения, что идеально равное число безопасных и рискованных примеров — наилучший вариант, исследователи позволяют генетическому алгоритму — методу поиска, вдохновленному эволюцией — находить наиболее эффективный баланс. Этот оптимизатор регулирует соотношение безопасных и рискованных образцов в реалистичном диапазоне от 1:1 до 4:1, многократно генерируя кандидатные соотношения, оценивая их и уточняя на протяжении сотен итераций. Важно, что он учитывает не только точность предсказания: в расчет берется также время обучения модели и время выполнения предсказаний, что отражает требования центров управления трафиком в реальном времени. Чтобы справедливо комбинировать точность и время вычислений, все показатели нормализуются перед объединением в единую «адаптационную» (fitness) метрику, которую алгоритм стремится минимизировать.

Чему модели учатся о риске на дороге

Во множестве экспериментов выделяется одна закономерность. Балансировка данных улучшает предсказание риска по сравнению с оставлением исходного перекоса, а оверсэмплинг с созданием синтетических рискованных случаев обычно работает лучше, чем удаление безопасных примеров. Соотношение 2:1 безопасных к рискованным даёт наилучшие результаты среди фиксированных настроек, превосходя широко используемый выбор 1:1. Когда генетическому алгоритму разрешают тонко подбирать это соотношение, он останавливается на слегка неравных, но оптимальных значениях — примерно 2,3:1 для оверсэмплинга и 2,7:1 для андерсэмплинга. Среди моделей предсказания особо хорошее качество стабильно показывает разновидность рекуррентной нейронной сети, известная как gated recurrent unit (GRU), особенно в сочетании с оверсэмплингом и оптимизацией. Модели также показывают, что средние скорости транспортных средств выше и ниже контрольной точки на шоссе дают больше информации о риске, чем простые подсчеты машин.

Figure 2
Figure 2.

Проверка устойчивости и подготовка к реальной эксплуатации

Поскольку методы оптимизации иногда могут застревать на вводящих в заблуждение решениях, авторы изучают динамику поиска со временем. Они показывают, что значения fitness стабильно снижаются и в конечном счете выравниваются, что говорит о сходимости алгоритма к стабильным, качественным соотношениям, а не о метаниях по пространству поиска. Затем они немного смещают выбранные соотношения вверх и вниз на несколько процентов, чтобы проверить, не рушится ли производительность. На практике точность падает лишь немного при небольших изменениях, что указывает на то, что система робастна и не чрезмерно настроена на одно хрупкое значение. Однако при очень большом относительном размере тестовой выборки модели становятся более чувствительными, что подчеркивает необходимость достаточно богатых тренировочных данных.

Что это значит для более безопасных и умных автомагистралей

Говоря простыми словами, исследование показывает: научить компьютеры распознавать опасность на дороге — это не только про изящные модели; это также про то, чтобы дать этим моделям справедливое представление о редких, но критически важных событиях. Тщательно регулируя число безопасных и рискованных примеров в обучении — и позволяя адаптивному алгоритму находить лучший компромисс между точностью и скоростью — предложенная система делает предсказание рисков на шоссе в реальном времени более надежным и практичным. Транспортные агентства могли бы встроить этот подход в системы, мониторящие данные детекторов движения и выдающие ранние предупреждения о вероятных столкновениях сзади, что поможет направлять оповещения водителям, распределять патрули или задействовать автоматическое торможение. Хотя работа продемонстрирована на немецких автомагистралях при хорошей погоде, базовая идея адаптивной балансировки данных представляет собой универсальный рецепт для улучшения предсказаний безопасности в тех местах, где опасные события редки, но слишком важны, чтобы их пропускать.

Цитирование: Chen, S., Cui, B. & Chang, A. An adaptive data rebalancing framework for real-time traffic risk prediction. Sci Rep 16, 8882 (2026). https://doi.org/10.1038/s41598-026-39539-8

Ключевые слова: безопасность дорожного движения, предсказание риска аварий, несбалансированные данные, машинное обучение, траектории на шоссе