Clear Sky Science · ru

Идентификация фишинговых атак в режиме реального времени с помощью расширений браузера, усиленных машинным обучением

· Назад к списку

Почему фальшивые сайты — проблема для всех

Каждый день люди получают сообщения, которые выглядят так, будто пришли от их банка, службы доставки или работодателя — но некоторые из них являются тщательно подготовленными ловушками. Фишинговые схемы используют похожие электронные письма и сайты, чтобы украсть пароли, номера банковских карт и другие личные данные. По мере того как преступники всё лучше имитируют подлинные сайты, простые списки блокировок и интуиция уже не спасают. В этой статье описано новое расширение для браузера, которое незаметно отслеживает посещаемые страницы и использует машинное обучение, чтобы в реальном времени помечать опасные сайты, стремясь обеспечить обычным пользователям надёжную защиту без необходимости становиться специалистами по безопасности.

Figure 1
Figure 1.

Как современные фишинговые атаки нас обманывают

Фишинг превратился в одно из самых распространённых преступлений в сети, отвечая за значительную долю зарегистрированных инцидентов и финансовых потерь. Злоумышленники рассылают убедительные письма с призывом к срочным действиям — «подтвердите аккаунт», «обновите платёж», «отследите посылку» — и перенаправляют жертв на фальшивые сайты, очень похожие на страницы банков, магазинов или облачных сервисов. Многие из этих сайтов теперь используют действительные HTTPS‑сертификаты и аккуратный дизайн, поэтому старые признаки вроде «нет значка замка» или «страница страшная» уже не работают. Опросы и отчёты о преступлениях показывают, что взрослые в возрасте 20–40 лет сильно подвергаются атакам, а команды по безопасности по‑прежнему серьёзно обеспокоены фишингом по электронной почте, который проходит сквозь фильтры.

Более умный взгляд на веб‑адреса и внешний вид страниц

Исследователи утверждают, что безопаснее всего блокировать фишинг прямо в браузере, в момент загрузки страницы. Их расширение для Google Chrome (и совместимых браузеров) анализирует два основных признака: сам веб‑адрес и внешний вид страницы. С каждого сайта собираются «лексические» детали URL — длина, необычные символы или подозрительные поддомены; «структурные» и доменные данные — например, трафик и регистрационная информация; а также «визуальные» подсказки, такие как блоки макета, цвета и логотипы. Безголовый браузер рендерит каждую страницу в контролируемой среде, разбивает её на прямоугольные области и фиксирует, где находятся формы, логотипы и навигационные панели. Затем этот визуальный отпечаток сравнивают с отпечатками доверенных сайтов в поисках почти точных копий, которые могут быть мошенническими.

Использование цифровых «волков» для выбора самых информативных признаков

Поскольку система собирает десятки измерений с каждого сайта, ей нужно решить, какие из них действительно помогают отделять мошенничество от безопасных страниц. Для этого авторы заимствуют алгоритм, вдохновлённый охотой серых волков. В этом «Grey Wolf Optimizer» множество кандидатных наборов признаков соревнуются, и алгоритм постепенно сходится на компактном подмножества, которое даёт наилучший баланс между обнаружением фишинга и минимизацией ложных срабатываний. Выбранные признаки затем передаются в три модели машинного обучения — метод опорных векторов, дерево решений и особенно Random Forest, который объединяет множество деревьев решений в сильный ансамбль. Обучение проводится на 80 000 сайтах из публичных коллекций, таких как PhishTank, и академических архивов, с дополнительными приёмами для работы с несбалансированностью между легитимными и вредоносными сайтами.

Figure 2
Figure 2.

Перевод лабораторных моделей в полезный инструмент для браузера

Оптимизированная модель Random Forest достигла примерно 98–99% точности и коэффициента корреляции Мэттьюса около 0,96 — строгой метрики, учитывающей как пропущенные атаки, так и ложные срабатывания. В реальных испытаниях с расширением для Chrome система сканировала каждый URL примерно за 200 миллисекунд, достаточно быстро, чтобы пользователи не замечали задержек. При обнаружении рискованной страницы расширение отображало ясное предупреждение и давало пользователю выбор вернуться назад или продолжить на свой страх и риск. По сравнению с популярными инструментами, такими как Google Safe Browsing, и существующими антифишинговыми расширениями, новая система показала более высокие показатели обнаружения, меньше ложных предупреждений и способность распознавать вводящие в заблуждение адреса — даже когда они были укорочены, слегка искажены или недавно созданы.

Что это значит для повседневного серфинга

Для неспециалистов главный вывод состоит в том, что защита от фишинга больше не должна опираться только на догадки или ручные чёрные списки. Объединяя то, как написана ссылка, и то, как выглядит страница, а также автоматически отбирая самые информативные сигналы, предложенное расширение может распознавать многие мошеннические сайты с первого появления, а не только после того, как кто‑то их сообщает. Авторы признают, что злоумышленники будут продолжать эволюционировать, и что модели нужно будет переобучать и адаптировать для телефонов и других браузеров. Тем не менее их работа показывает, что интеллектуальное, сохраняющее приватность расширение, работающее на вашем устройстве, может выступать в роли неутомимого второго набора глаз — тихо проверяя каждый посещаемый сайт и вмешиваясь, когда что‑то кажется подозрительным, задолго до того, как поспешный клик обернётся дорогостоящей ошибкой.

Цитирование: Dandotiya, M., Goyal, N., Khunteta, A. et al. Real time identification of phishing attacks through machine learning enhanced browser extensions. Sci Rep 16, 6612 (2026). https://doi.org/10.1038/s41598-026-35655-7

Ключевые слова: обнаружение фишинга, расширение браузера, машинное обучение, кибербезопасность, фальшивые сайты