Clear Sky Science · ja

グレースケール実行ファイル画像に対するCNNベースのハイブリッドモデルを用いた階層的マルウェア検出、ファミリ識別、および亜種帰属

· 一覧に戻る

日常のコンピュータ利用者にとってなぜ重要か

悪意あるソフトウェアはもはや数個の容易に識別できるウイルスだけでは到来しません。現代では攻撃者が短時間で大量の類似プログラムを生み出し、従来のウイルス対策をすり抜けます。本研究は、プログラムを単純な白黒画像に変換し、最新の画像認識ネットワークで読み取ることで、コンピュータがほぼ完璧な信頼度でマルウェアを検出できるだけでなく、それをファミリごと、さらには特定の亜種まで分類できることを示しています。こうした詳細な識別は、防御側が攻撃の目的、発生源、対処法を理解するのに役立ちます。

プログラムのバイトからグレースケール画像へ

著者らは、ラップトップやデスクトップ、サーバでマルウェアを広める典型的なWindows実行ファイルに着目しています。各ファイルを手作業で解析したり、サンドボックスで実行したりする代わりに、生のバイト列をそのまま読み取り、各バイトをグレースケール画像のピクセルに対応させます。結果として得られるのは224×224の白黒画像であり、そのテクスチャやブロックはファイル内の構造、たとえばコード領域、パディング、暗号化されたペイロードなどを反映します。データセット内のすべてのファイルはこの方法で処理されており、無害なソフトウェアから、ランサムウェアやスパイウェアなど5つの大きなファミリにまたがる33の異なるマルウェア亜種のいずれかまで含まれます。

Figure 1
Figure 1.

1つのモデルで3つの答えを同時に出す

これらの画像を基に、チームは熟練した税関担当官のように機能する深層学習システムを構築します。入力画像を一目見るだけで、次の3つの問いに同時に答えます:このファイルは無害か悪意あるものか?悪意ある場合、どの大きなファミリに属するか?そしてどの特定の亜種が最も当てはまるか?システムの中核は畳み込みネットワークであり、日常の画像認識に用いられるのと同じアーキテクチャです。この共有バックボーンはグレースケール画像から一般的な視覚的特徴を学習します。その上に三つの並列出力ブランチがあり、それぞれが三段階の判断レベルに特化することで、各タスクを別々に扱うのではなく、粗いパターンと細かなパターンが互いにどう関連するかを学習できます。

隠れた構造を読み取る三つの方法

どの設計が最も有効かを検証するため、著者らは三つの“ハイブリッド”版モデルをテストします。ひとつは時間的畳み込みヘッドで、平坦化した画像をシーケンスのように扱い、拡張(ダイレーテッド)フィルタを用いて離れた領域を結びつけ、ファイル全体に散在する長距離パターンを捉えます。二つ目はカプセルベースのヘッドを追加し、小さな部分がどのように結合して大きな構造を形成するかを追跡することで、多くの構成要素を共有する近縁の亜種を区別することを狙います。三つ目は双方向シーケンス層を用い、画像を左から右および右から左の両方向に読み、領域の左右どちらの文脈も意味を変えうる点を模倣します。三モデルともまったく同一のバランスの取れたデータセット、すなわち各マルウェア亜種と無害ファイルが等しく表現されるデータで訓練され、性能差がデータの偏りではなくアーキテクチャによることを保証しています。

Figure 2
Figure 2.

どれほどうまく機能するのか

3,000を超える保留テスト画像に対して、これらハイブリッドは著しい性能を示しました。最も単純な問い「悪意あるか否か?」では、三つのうち二つが完全な100%の正確度に到達し、三つ目もごく少数の無害ファイルを見落とすにとどまり、慎重な誤判定をしています。より広いファミリ名を尋ねるタスクでも精度は非常に高く、97–98%で、スパイウェアとトロイのように振る舞いが似たグループ間でのみ時折混同が見られます。最も難しい試験は33の選択肢の中から正確な亜種名を当てることですが、ここでも三モデルはいずれもグレースケール画像のみで93–94%の精度を達成し、詳細なスコアの分解はほとんどの亜種が非常に高い信頼性で認識されていることを示します。畳み込みバックボーンと時間的畳み込みを組み合わせた設計が、すべての亜種に対して最もバランスの取れた性能を示しました。

デジタル捜査にとっての意味

セキュリティチームやフォレンジック分析担当者にとって、これらの結果は単なる学術的な基準以上の意味を持ちます。実際のインシデントでは、感染した機器から何千もの疑わしいプログラムが収集されることがあります。それぞれに対して完全な振る舞い解析を行うのは遅く、資源を大量に消費します。提案された画像ベースのシステムは、実行せずに素早く無害なファイルを除外し、残りをファミリごとにグルーピングし、単一の処理で可能性の高い亜種を特定できます。これによりトリアージの強力なツールとなり、調査者は最も重要なサンプルに対して高コストな手法を集中させつつ、キャンペーンレベルの洞察を得られます。本研究は、プログラムバイトを単純なグレースケール画像に変換し、慎重に選んだニューラルネットワーク設計で処理するだけで、かつてはより複雑で時間のかかる解析を要した細粒度のマルウェア帰属が可能になることを示しています。

引用: Saxena, M., Das, T. Hierarchical malware detection, family identification, and variant attribution using CNN-based hybrid models on grayscale executable images. Sci Rep 16, 9948 (2026). https://doi.org/10.1038/s41598-026-40655-8

キーワード: マルウェア検出, 深層学習, グレースケール画像, CNNハイブリッドモデル, デジタル・フォレンジクス