Clear Sky Science · ru

Фреймворк классификации фишинга на основе глубокого обучения для точного обнаружения с оптимизированной аналитикой URL

· Назад к списку

Почему поддельные веб-ссылки становятся серьёзной проблемой

Каждый день мы кликаем по ссылкам в письмах, сообщениях и результатах поиска, не задумываясь. За некоторыми из этих ссылок скрываются тщательно спланированные ловушки, созданные для кражи паролей, банковских данных или другой личной информации. Злоумышленники постоянно меняют внешний вид фальшивых адресов, поэтому традиционные защиты, такие как чёрные списки, не успевают за ними. В этой работе предложен новый способ автоматического обнаружения опасных ссылок в реальном времени, цель которого — дать пользователям и организациям более надёжный щит против онлайн‑мошенничества.

Как онлайн‑мошенники маскируются на виду

Современные фишинговые атаки редко опираются на очевидные опечатки или грубые копии банковских сайтов. Вместо этого используются приёмы вроде очень коротких ссылок, быстро меняющихся доменов и префиксов, создающих впечатление безопасности. Многие существующие инструменты обнаружения полагаются на фиксированные правила или списки известных вредоносных сайтов. Они эффективны против старых схем, но часто пропускают новые, так называемые zero‑day‑атаки, и могут ошибочно помечать редкие, но безвредные сайты. Авторы утверждают, что веб развивается слишком быстро для одних только ручных правил, и защиты должны уметь извлекать закономерности напрямую из данных.

Обучение системы «читать» веб‑адреса

В статье предложен подход под названием Adaptive Deep URL Intelligence Network (ADUIN), который рассматривает каждый веб‑адрес как богатый источник подсказок. Вместо скачивания полных страниц система фокусируется на трёх типах информации. Она анализирует текст ссылки — длину, состав символов и подозрительные слова; проверяет свойства хоста, включая возраст домена и репутацию IP‑адреса; и изучает структуру ссылки — число субдоменов и папок, а также частоту переадресаций. Эти элементы переводят в числовые признаки и объединяют в компактное представление каждого URL.

Figure 1. Как интеллектуальный анализ URL фильтрует вредоносные ссылки до того, как они попадут в браузеры пользователей.
Figure 1. Как интеллектуальный анализ URL фильтрует вредоносные ссылки до того, как они попадут в браузеры пользователей.

Выбор самых информативных признаков

Сбор множества сигналов может загромоздить систему шумом. Чтобы этого избежать, исследователи ввели шаг отбора признаков, который ранжирует каждую подсказку по тому, насколько сильно она помогает отделять безопасные ссылки от опасных. Статистические тесты удаляют характеристики, дублирующие друг друга, а методы на основе обучения подчёркивают те признаки, которые заметно снижают ошибки. Из большого первоначального набора система оставляет примерно 50 самых информативных признаков. Такое сокращение ускоряет обнаружение, уменьшает риск переобучения на особенностях обучающей выборки и при этом сохраняет закономерности, наиболее полезные для различения фишинга и легитимного трафика.

Позволяя глубокому обучению находить скрытые закономерности

После выбора полезных признаков их подают в глубокую нейронную сеть, содержащую несколько слоёв виртуальных «нейронов» и механизм внимания. Эти слои учат сложным взаимосвязям между различными аспектами URL, например тому, как сочетание определённых слов совмещается с историей хостинга или структурой пути. В процессе обучения сеть видит сотни тысяч реальных и вредоносных ссылок и постепенно настраивает внутренние веса, чтобы минимизировать ошибки. Важно, что система рассчитана на обновление по мере поступления новых пакетов URL, что позволяет ей адаптироваться к новым стилям атак без полной переработки.

Figure 2. Как многослойная нейронная сеть превращает подсказки в URL в чёткое разделение безопасных и фишинговых ссылок.
Figure 2. Как многослойная нейронная сеть превращает подсказки в URL в чёткое разделение безопасных и фишинговых ссылок.

Насколько хорошо работает новая защита

Авторы протестировали ADUIN на большой публичной коллекции фишинговых и легитимных URL, собранных из нескольких источников за длительный период. Они разделили данные так, чтобы самые новые ссылки, не использованные в обучении, служили имитацией реальных zero‑day‑атак. По сравнению с несколькими сильными базовыми методами машинного обучения новая система показала около 95% общей точности, корректно открывая примерно 93% помеченных фишинговых ссылок и обнаруживая около 92% ранее не встречавшихся фишинговых URL. При этом лишь около 3,5% безвредных ссылок были ошибочно помечены как опасные, а обработка одного URL занимала примерно пятую долю секунды даже при высокой нагрузке, что указывает на пригодность метода для шлюзов с большим трафиком и корпоративных сетей.

Что это означает для повседневного серфинга

Для неспециалистов главный вывод таков: внимательное изучение конструкции веб‑адреса может многое рассказать о его намерениях. Комбинируя множество мелких подсказок из текста ссылки, её хоста и структуры, и позволяя обучающейся системе постоянно адаптироваться, предложенный фреймворк способен выявлять как знакомые мошенничества, так и новые, никогда ранее не появлявшиеся в чёрных списках. Хотя это не панацея от фишинга, ADUIN демонстрирует, как более умный и быстрый анализ URL может стать важным уровнем защиты пользователей электронной почты, онлайн‑покупателей и организаций от обмана с целью выманивания секретных данных.

Цитирование: Gobinath, R., Manikandan, S. Deep learning-based phishing classification framework for accurate detection using optimized URL intelligence. Sci Rep 16, 15794 (2026). https://doi.org/10.1038/s41598-026-46481-2

Ключевые слова: фишинговые URL, глубокое обучение, кибербезопасность, анализ URL, безопасность веба