Clear Sky Science · ru

Применение обучения представлениям для обнаружения ботнет-атак

· Назад к списку

Почему скрытые кибервойска важны для всех

За повседневным использованием интернета — от просмотра фильмов до проверки банковских счетов — скрываются армии взломанных устройств, называемые ботнетами, которые могут быть задействованы для перегрузки сайтов, распространения мошенничества или кражи данных. Выявлять такие ботнеты на ранних стадиях сложно, особенно когда злоумышленники постоянно меняют тактику. В этой статье предлагается новый способ «увидеть» подозрительную активность в сетевом трафике — превращать сырые данные соединений в компактные изображения, которые может распознавать модель глубокого обучения, что значительно повышает шансы поймать новые, ранее неизвестные ботнет-атаки.

Растущая проблема тихих захватов в сети

Ботнеты — это сети обычных устройств — ноутбуков, серверов и даже умных домашних гаджетов — которые были незаметно захвачены и могут управляться удалённо как единое оружие. Они могут перегружать онлайн-сервисы «мусорным» трафиком, рассылать волны спама и фишинговых писем или тайно похищать личную и финансовую информацию. По мере взрывного роста числа подключённых к интернету устройств увеличивается и потенциальный размер и мощь этих скрытых сетей. Традиционные средства защиты опираются на известные «сигнатуры» атак или простые статистические правила, которые работают лишь пока злоумышленники существенно не меняют своё поведение. Как только появляется новая семья ботнетов или хитрая маскировка, такие старые системы часто перестают распознавать угрозу.

Figure 1
Figure 1.

Ограничения современных умных средств защиты

В последние годы исследователи обратились к машинному и глубокому обучению для автоматического обнаружения подозрительных закономерностей в сетевом трафике. Многие системы используют вручную разработанные сводки соединений — например, средний размер пакета или длительность соединения — в качестве входа для традиционных моделей вроде деревьев решений или случайного леса. Хотя эти методы могут хорошо работать на данных, для которых они были настроены, они сильно зависят от выбора человекоориентированных признаков. Когда новый ботнет ведёт себя иначе, старый набор признаков может перестать отражать то, что делает его опасным. Глубокое обучение улучшило ситуацию, позволяя моделям извлекать закономерности напрямую из данных, но большинство подходов по‑прежнему рассматривают сетевой трафик как простые таблицы чисел, потенциально теряя тонкие взаимосвязи, которые могли бы отличить новую атаку от нормальной активности.

Преобразование сырого трафика в картины, которые читает нейросеть

В этом исследовании предложена сквозная архитектура, которая переводит задачу обнаружения ботнетов в задачу распознавания изображений. Каждый сетевой поток — запись, суммирующая, кто с кем общался, как долго и с каким объёмом данных — сначала тщательно кодируется. IP-адреса разбиваются на четыре числовые части, порты и протоколы представлены частотами их встречаемости, а числовые значения, такие как длительность и общий объём байт, масштабируются к общему диапазону. Из этих 19 чисел метод строит крошечное градации серого изображение с использованием кривой заполнения пространства Хильберта — извилистой трассы, отображающей одномерный список значений на двумерную сетку, при этом близкие по порядку значения остаются рядом. Хотя большинство пикселей пусты, ненулевые формируют небольшие, стабильные формы, которые сверточная нейронная сеть может научиться распознавать как сигнатуры нормального или вредоносного поведения.

Figure 2
Figure 2.

Нагрузочное тестирование системы против совершенно новых угроз

Чтобы проверить, действительно ли этот подход на основе изображений обобщается, автор использует реалистичный эталонный набор сетевого трафика CTU-13, в котором записаны несколько инфекций ботнетов вперемешку с нормальной активностью. Модель глубокого обучения обучается только на одной семье ботнета, называемой Murlo, а затем тестируется на совершенно другой семье, Rbot, с которой она никогда не сталкивалась. Такая постановка моделирует реальную «ноль-дневную» ситуацию, когда защитник должен на лету отметить новый шаблон атаки. Предложенная система, основанная на классификаторе ResNet-18, работающем с компактными изображениями 32×32, правильно идентифицирует потоки ботнета с примерно 98% общей точностью и сопоставимо высоким F1‑баллом, при этом удерживая как пропущенные атаки, так и ложные срабатывания на низком уровне. В резком контрасте сильный традиционный базовый алгоритм — Random Forest, обученный в той же схеме — демонстрирует неплохую общую точность, но почти полностью не справляется с распознаванием нового ботнета, ошибочно классифицируя практически весь вредоносный трафик как безобидный.

Что это значит для более безопасных сетей

Результаты показывают, что представление сетевых данных важно не меньше, чем выбранная модель. Организуя признаки соединений в маленькие изображения с сохранением локальности, система фиксирует фундаментальную «форму» вредоносного поведения, а не запоминает конкретные числа, привязанные к одному известному ботнету. Это позволяет ей с гораздо большей надёжностью обнаруживать родственные, но отличающиеся атаки. Поскольку метод использует метаданные и статистику потоков вместо анализа содержимого пакетов, он хорошо подходит для современного мира зашифрованных коммуникаций и растущего числа устройств Интернета вещей. С практической точки зрения эта работа указывает путь к системам обнаружения вторжений, которые могут адаптироваться к новым семействам ботнетов с меньшей ручной донастройкой, обеспечивая более устойчивую линию защиты для обычных пользователей и организаций.

Цитирование: Le Ngoc, H. Application of representation learning in detecting botnet attacks. Sci Rep 16, 11977 (2026). https://doi.org/10.1038/s41598-026-40172-8

Ключевые слова: обнаружение ботнетов, сетевые безопасность, глубокое обучение, обучение представлениям, обнаружение вторжений