Clear Sky Science · ru

Улучшение обнаружения APT с помощью обучения признаков на трансформерах и генерации синтетических данных

· Назад к списку

Почему скрытые кибератаки важны

Современные организации зависят от компьютерных сетей, которые постоянно работают — от веб‑просмотра до критических государственных сервисов. Однако в этом цифровом шуме скрываются одни из самых опасных киберугроз: продвинутые постоянные угрозы (APT). Эти длительные, скрытные атаки часто поддерживаются высококвалифицированными группами и могут тихо внедряться в системы на месяцы. В статье представлена новая методика, названная ET‑SDG, которая использует последние достижения искусственного интеллекта, чтобы просеивать огромные потоки сетевого трафика, учиться распознавать действительно подозрительное поведение и надежнее выявлять редкие, но серьёзные APT, чем предыдущие средства.

Задача — найти иголку в цифровой копне

Кампании APT отличаются от обычного вредоносного ПО тем, что они медленные, адаптивные и тщательно целенаправленные. Они используют приёмы, такие как эксплуатация неизвестных уязвимостей и сокрытие общения внутри трафика, выглядящего как нормальный. Традиционные системы обнаружения вторжений опираются на фиксированные правила или известные подписи, поэтому новые или изменённые атаки могут пробраться мимо. Недавние исследования обращаются к машинному обучению для поиска тонких закономерностей в сетевых «потоках» — сводках о том, кто с кем общался, как долго и сколько данных было передано. Но остаются две проблемы: структуры в этих потоках сложны, и реальные данные сильно несбалансированы — обычного трафика намного больше, чем подтверждённых APT. Этот дисбаланс может привести к тому, что системы ИИ прекрасно научатся распознавать нормальное поведение, при этом незаметно пропуская редкие события, имеющие наибольшее значение.

Figure 1
Figure 1.

Более умный способ читать сетевые потоки

Фреймворк ET‑SDG решает первую проблему — понимание сложного трафика — разделяя задачу на этапы. Он начинается с десятков числовых описателей для каждого сетевого потока. Метод, известный как ExtraTrees, действует как быстрый, грубый рецензент: он сравнивает множество возможных деревьев решений, чтобы понять, какие признаки больше всего помогают отличить атакующий трафик от нормального, и отбрасывает остальные. Очищенные данные затем передаются в трансформер — семейство моделей, наиболее известное по современным языковым инструментам. Вместо чтения слов в предложении трансформер здесь «читает» признаки трафика, используя механизм внимания, чтобы изучить, как различные свойства соединения влияют друг на друга. В результате получается компактный, контекстно‑ориентированный отпечаток для каждой пары взаимодействующих машин, достаточно информативный, чтобы зафиксировать поведение многоэтапных APT‑кампаний.

Создание реалистичных примеров редких атак

Вторым основным препятствием является то, что подтверждённых случаев APT крайне мало по сравнению с горами безвредного трафика. Простое копирование этих редких записей атак, как в базовых методах oversampling, грозит обучить модель запоминать, а не обобщать. ET‑SDG решает это с помощью Условной Генеративной Модели для Синтеза (CGMS), основанной на типе нейросети, известной как условная генерирующая состязательная сеть. Этот генератор учится создавать новые синтетические точки данных, которые статистически напоминают известное поведение APT, в то время как другая сеть пытается отличить реальные данные от фейковых. Совместная тренировка позволяет системе генерировать дополнительные разнообразные примеры атакующего трафика, но только в пределах тренировочного набора, чтобы не загрязнять оценочные данные. Слой на основе внимания затем фокусируется на наиболее информативных частях этих обогащённых представлений, прежде чем окончательный классификатор решит, является ли пара IP, скорее всего, безопасной или подвергается атаке.

Figure 2
Figure 2.

Тестирование на реальных и сложных наборах данных

Чтобы проверить, окупается ли такая архитектура, авторы оценили ET‑SDG на объединённом наборе данных, включающем реальные захваты APT‑вредоноса и трафик государственных сетей, а также на большом публичном бенчмарке по обнаружению вторжений, известном своим сильным дисбалансом классов. Они сравнили свою систему с рядом альтернатив — от более простых моделей глубокого обучения, которые обрабатывают потоки как временные ряды, до графовых подходов, подчеркивающих отношения между машинами. По нескольким метрикам — включая точность, precision, recall и F1‑меру — ET‑SDG последовательно соответствовал или превосходил большинство конкурентов, часто улучшая результаты на один‑четыре процентных пункта. Важно, что это происходило при низком уровне как пропущенных атак, так и ложных срабатываний, и его производительность оставалась стабильной при повторном перемешивании данных в кросс‑валидации.

Что это значит для повседневной безопасности

Для неспециалиста главный вывод таков: ET‑SDG предлагает более тонкий способ наблюдать за сетевым трафиком. Сначала система учится, какие детали важны, затем интерпретирует их в контексте и, наконец, генерирует реалистичные дополнительные примеры редких атак — в результате она лучше улавливает скрытное поведение APT среди повседневного цифрового шума. Хотя подход требует больше вычислительных ресурсов, чем старые методы, и пока в основном проверен в офлайн‑экспериментах, он демонстрирует, что сочетание продвинутого распознавания шаблонов и аккуратной генерации синтетических данных может значительно усилить системы раннего предупреждения. На практике это может помочь командам безопасности быстрее обнаруживать серьёзные вторжения, сосредотачиваться на более качественных оповещениях и лучше защищать критические сервисы от долгосрочных компрометаций.

Цитирование: Danh, L.T.K., Xuan, C.D. & Van, N.N. Advancing APT detection through transformer-driven feature learning and synthetic data generation. Sci Rep 16, 11772 (2026). https://doi.org/10.1038/s41598-026-41317-5

Ключевые слова: продвинутые постоянные угрозы, обнаружение вторжений в сеть, модели трансформеров, генерация синтетических данных, кибербезопасность ИИ