Clear Sky Science · ru

Иерархическое обнаружение вредоносного ПО, идентификация семей и определение вариантов с использованием гибридных CNN‑моделей на градациях серого изображений исполняемых файлов

· Назад к списку

Почему это важно для обычных пользователей компьютеров

Вредоносное ПО больше не приходит в виде нескольких легко распознаваемых вирусов. Сегодня злоумышленники быстро выпускают множество похожих программ, которые обходят традиционные антивирусы. В исследовании показано, что, превратив программы в простые черно‑белые изображения и обработав их современными сетями распознавания изображений, компьютер может не только обнаруживать вредоносные образцы с почти идеальной надежностью, но и относить их к семействам и даже к конкретным штаммам. Такой уровень детализации помогает защитникам понять, что пытается сделать атака, откуда она пришла и как её остановить.

От байтов программы к серым картинкам

Авторы сосредотачиваются на исполняемых файлах Windows — тех программах, которые чаще всего разносят вредоносное ПО на ноутбуках, настольных компьютерах и серверах. Вместо ручного анализа каждого файла или его запуска в контролируемой среде они читают сырые байты и отображают каждый байт в пиксель на изображении в градациях серого. В результате получается черно‑белая картинка размером 224×224, текстуры и блоки которой отражают внутреннюю структуру файла: области кода, заполнение, зашифрованные полезные нагрузки и прочее. С каждым файлом в их наборе данных поступают одинаково, будь то безвредная программа или один из 33 различных вредоносных вариантов, принадлежащих пяти широким семействам, таким как программы‑вымогатели и шпионы.

Figure 1
Figure 1.

Одна модель — три ответа сразу

На основе этих изображений команда строит систему глубокого обучения, работающую как опытный таможенный инспектор. Всего одним взглядом на входную картинку она отвечает на три вопроса одновременно: является ли файл безвредным или вредоносным? Если вредоносен, к какому широкому семейству он относится? И какой конкретный вариант лучше всего его описывает? Ядро системы — сверточная сеть, тот же тип архитектуры, что используется в обычных задачах распознавания изображений. Общая «спина» обучается извлекать общие визуальные признаки из изображений в градациях серого. Над ней располагаются три параллельных выходных ветви, каждая специализируется на одном уровне решения, что позволяет системе учитывать взаимосвязь между грубыми и тонкими шаблонами вместо раздельного обучения для каждой задачи.

Три подхода к чтению скрытой структуры

Чтобы выяснить, какая конструкция работает лучше, авторы тестируют три «гибридные» версии модели. В одной голова с временными свертками обрабатывает выровненное изображение как последовательность и использует дилатированные фильтры для связи отдаленных областей, улавливая длинноразмерные шаблоны, разбросанные по файлу. Вторая версия добавляет голову на основе капсул, которая отслеживает, как мелкие части формируют более крупные структуры, стремясь различать близкородственные варианты, разделяющие многие компоненты. Третья версия использует двунаправленный последовательный слой, читающий изображение слева направо и справа налево, имитируя влияние контекста по обе стороны от региона на его значение. Все три обучаются на точно таком же сбалансированном наборе данных с равным представлением каждого варианта вредоносного ПО и безвредных файлов, чтобы различия в показателях отражали архитектуру, а не особенности данных.

Figure 2
Figure 2.

Насколько хорошо это работает?

На более чем 3000 отложенных тестовых изображений гибриды показывают впечатляющие результаты. Для самого простого вопроса — «вредоносный или нет?» — две из трех моделей достигают безупречных 100% точности, а третья промахивается лишь по нескольким безвредным файлам, проявляя осторожность. При определении более широкого семейства точность остается очень высокой — 97–98% — с лишь редкими путаницами между поведенчески схожими группами, такими как шпионское ПО и трояны. Самая сложная задача — назвать точный вариант из 33 возможных. Даже здесь все три модели достигают 93–94% точности, используя лишь изображения в градациях серого, а детализированный разбор баллов показывает, что большинство вариантов распознаются с очень высокой надежностью. Одна из конструкций — сочетание сверточной «спины» с временными свертками — обеспечивает наиболее сбалансированную производительность по всем вариантам.

Что это значит для цифровых расследований

Для команд по безопасности и судебных аналитиков эти результаты представляют собой не просто академический эталон. В реальном инциденте с зараженными машин может быть собрано тысяч подозрительных программ. Полный поведенческий анализ каждого образца медленен и ресурсоёмок. Предложенная система на основе изображений может быстро отфильтровать безвредные файлы, сгруппировать остальные по семействам и сразу указать вероятные варианты, не выполняя их. Это делает её мощным инструментом для сортировки приоритетов: следователи могут направлять самые дорогие методы анализа на самые важные образцы, одновременно получая представление об уровне кампании. Исследование демонстрирует, что простые серые изображения байтов программы в сочетании с тщательно подобранными архитектурами нейросетей достаточны для тонкой атрибуции вредоносного ПО, которая раньше требовала куда более сложного и длительного анализа.

Цитирование: Saxena, M., Das, T. Hierarchical malware detection, family identification, and variant attribution using CNN-based hybrid models on grayscale executable images. Sci Rep 16, 9948 (2026). https://doi.org/10.1038/s41598-026-40655-8

Ключевые слова: обнаружение вредоносного ПО, глубокое обучение, изображения в градациях серого, гибридные модели CNN, цифровая криминалистика