Clear Sky Science · ru

BERT-spaCy гибридная обработка естественного языка и усиленная блокчейном адаптивная CTI для извлечения IOC и прогнозирования угроз

· Назад к списку

Почему более умная киберзащита важна

Повседневная жизнь теперь зависит от цифровых систем — от медицинских карт и онлайн-банкинга до «умных» домов и промышленных роботов. В то же время кибератаки развиваются быстрее и изощреннее, чем многие средства защиты успевают адаптироваться. В этой работе предложен продвинутый, но практичный подход к разведке киберугроз, который направлен на раннее обнаружение атак, автоматическое обучение на новых инцидентах и безопасный обмен признаками предупреждений между организациями без риска подделки.

Figure 1
Figure 1.

Преобразование разрозненных улик в ясные сигналы тревоги

Современные атаки оставляют разрозненные следы в письмах, логах безопасности, записях в социальных сетях и технических отчётах. Эти следы, известные как индикаторы компрометации, включают подозрительные веб-адреса, IP-адреса, названия вредоносных программ и хеши файлов. Авторы создают гибридный движок анализа текста, который сочетает три метода: вручную прописанные шаблоны для строго структурированных элементов, быстрый языковой инструментарий (spaCy) для общей обработки текста и мощную модель глубокого обучения (BERT) для понимания контекста. Работая совместно, эти инструменты способны извлекать полезные признаки угроз из неструктурированных текстов с примерно 95% точностью, даже когда язык ненадёжен или неформален.

Обучение машин распознаванию и адаптации к атакам

Извлечённых признаков недостаточно — системе нужно решить, является ли событие безвредным или опасным. Для этого фреймворк использует ансамбль моделей машинного обучения, включая BERT, рекуррентную сеть (LSTM) и более простую вероятностную модель. Каждая модель приносит свои сильные стороны — глубокое понимание контекста, работу с последовательностями или устойчивость на малых выборках — и их мнения объединяются в голосовании с весами, зависящими от уверенности. Система спроектирована для непрерывного обучения: при поступлении новых размеченных примеров она обновляет внутренние параметры без полного переобучения с нуля. В ходе годовой симуляции такой адаптивный подход повышал точность обнаружения с 75% до 93% и сокращал ложные срабатывания, особенно в несбалансированных данных, где реальные атаки редки.

Фиксация доверия с помощью неизменяемой записи

Постоянная проблема в киберзащите — доверие: организации могут сомневаться в обмене информацией об угрозах, опасаясь её изменения, неправильного использования или последующих оспариваний. Чтобы решить эту проблему, в фреймворк добавлен лёгкий реестр, вдохновлённый блокчейном. Каждый обработанный отчёт — его извлечённые признаки, вердикт системы и время наблюдения — запечатывается в криптографический блок, связанный с предыдущим, создавая след аудита, который чрезвычайно трудно тихо переписать. В тестах преднамеренные попытки подделки цепочки надёжно обнаруживались. Поскольку дизайн упрощён и работает на одном узле, он добавляет лишь несколько миллисекунд на запись, сохраняя систему достаточно быстрой для загруженных центров операций безопасности.

Figure 2
Figure 2.

Проверка надёжности в разных цифровых средах

Средства киберзащиты часто хорошо работают на одном наборе данных, но дают сбои при смене окружения. Поэтому авторы тестируют свою систему на двух широко используемых коллекциях сетевого трафика, которые отличаются типами и паттернами атак. Они вводят «индекс устойчивости между наборами данных», чтобы измерить, насколько стабильно модель работает при переносе между наборами. Компонент на базе BERT почти идеально набирает баллы по этой шкале, слегка опережая LSTM и явно превосходя более традиционные методы. Детальные статистические проверки, включая обширные симуляции и анализ размера эффекта, показывают, что эти улучшения вряд ли случайны и остаются устойчивыми при шумных и неравномерных условиях.

Что это означает для повседневной безопасности

Проще говоря, эта работа показывает, как превратить разрозненные человекописные отчёты и сырые сетевые следы в живую, надёжную систему раннего предупреждения. Объединив продвинутое понимание языка, адаптивное обучение и реестр с доказуемой не подделываемостью, фреймворк точнее обнаруживает угрозы, реагирует быстрее — сокращая время обработки партии отчётов примерно вдвое — и сохраняет надёжную историю увиденного и принятых решений. Для банков, больниц, промышленных объектов и сред интернета вещей такая система могла бы обеспечить общую прозрачную основу для киберзащиты, которая продолжает улучшаться по мере появления новых атак, вместо того чтобы ждать, пока статические наборы правил догонят ситуацию.

Цитирование: Mishra, S., Alfahidah, R.A. & Alharbi, F. BERT-spaCy hybrid NLP and blockchain-enhanced adaptive CTI for IOC extraction and threat prediction. Sci Rep 16, 8147 (2026). https://doi.org/10.1038/s41598-025-34505-2

Ключевые слова: разведка киберугроз, обнаружение вредоносного ПО, безопасность блокчейна, машинное обучение, сетевое вторжение