Clear Sky Science · pl

Hybrydowy NLP BERT‑spaCy i ulepszona blockchainem adaptacyjna CTI do ekstrakcji IOC i predykcji zagrożeń

2026-03-02 · Powrót do spisu

Dlaczego ważniejsze są inteligentniejsze systemy obronne

Codzienne życie w dużej mierze zależy od systemów cyfrowych — od kartotek szpitalnych i bankowości online po inteligentne domy i roboty przemysłowe. Tymczasem cyberataki rosną szybciej i stają się bardziej wyrafinowane, niż wiele zabezpieczeń potrafi sobie poradzić. Artykuł przedstawia zaawansowane, lecz praktyczne podejście do wywiadu o zagrożeniach cybernetycznych, które ma na celu wykrywać ataki wcześniej, automatycznie uczyć się na podstawie nowych incydentów oraz umożliwiać organizacjom bezpieczne dzielenie się sygnałami ostrzegawczymi bez obawy przed manipulacją.

Zmiana rozproszonych wskazówek w czytelne znaki ostrzegawcze

Współczesne ataki pozostawiają rozproszone ślady w e‑mailach, logach zabezpieczeń, postach w mediach społecznościowych i raportach technicznych. Te ślady, znane jako wskaźniki kompromitacji, obejmują podejrzane adresy WWW, numery IP, nazwy malware’u i odciski plików. Autorzy budują hybrydowy silnik analizy tekstu, który łączy trzy techniki: ręcznie tworzone wzorce dla silnie ustrukturyzowanych elementów, szybkie narzędzie do przetwarzania języka (spaCy) do ogólnego przetwarzania tekstu oraz potężny model głębokiego uczenia (BERT) do rozumienia kontekstu. Działając wspólnie, te narzędzia potrafią wydobywać użyteczne wskazówki o zagrożeniach z nieustrukturyzowanych tekstów z dokładnością sięgającą około 95%, nawet gdy język jest hałaśliwy lub nieformalny.

Nauka maszyn rozpoznawania i adaptacji do ataków

Samo wydobycie wskazówek nie wystarcza; system musi ocenić, czy zdarzenie jest prawdopodobnie niegroźne czy niebezpieczne. W tym celu ramy używają zespołu modeli uczenia maszynowego, w tym BERT, sieci rekurencyjnej (LSTM) oraz prostszej metody probabilistycznej. Każdy model wnosi inne zalety — głębokie rozumienie kontekstu, analizę sekwencji lub odporność przy małych próbkach — a ich opinie są łączone głosowaniem ważonym względem pewności. System został zaprojektowany do ciągłego uczenia: gdy pojawiają się nowe oznakowane przykłady, aktualizuje swoje wewnętrzne parametry bez zaczynania od zera. W symulowanym rocznym działaniu to adaptacyjne podejście podnosi dokładność wykrywania z 75% do 93% i zmniejsza liczbę fałszywych alarmów, szczególnie w danych skośnych, gdzie prawdziwe ataki są rzadkie.

Utrwalenie zaufania przez niezmienny zapis

Stałym problemem w obronie cybernetycznej jest zaufanie: organizacje mogą wahać się przed dzieleniem się informacjami o zagrożeniach, jeśli obawiają się, że mogą one zostać zmienione, niewłaściwie użyte lub podważone później. Aby temu zaradzić, ramy dodają lekką, inspirowaną blockchainem księgę rachunkową. Każdy przetworzony raport — jego wydobyte wskazówki, werdykt systemu i czas obserwacji — jest zapieczętowany w bloku kryptograficznym powiązanym z poprzednim, tworząc ścieżkę audytu niezwykle trudną do cichego przepisania. W testach zamierzone manipulacje w łańcuchu są niezawodnie wykrywane. Ponieważ projekt jest uproszczony i działa na pojedynczym węźle, dodaje jedynie kilka milisekund na wpis, utrzymując system wystarczająco szybkim dla obciążonych centrów operacji bezpieczeństwa.

Testowanie niezawodności w różnych cyfrowych środowiskach

Systemy obronne często dobrze wypadają na jednym zbiorze danych, ale zawodzą, gdy środowisko się zmienia. Dlatego autorzy testują swój system na dwóch powszechnie używanych zbiorach ruchu sieciowego, które różnią się typami i wzorcami ataków. Wprowadzają „wskaźnik odporności międzyzbiorowej”, by mierzyć, jak konsekwentnie model działa po przeniesieniu między zbiorami. Komponent oparty na BERT osiąga niemal idealny wynik w tej skali, nieznacznie przewyższając LSTM i zdecydowanie bijąc bardziej tradycyjne metody. Szczegółowe kontrole statystyczne, w tym obszerne symulacje i analiza wielkości efektu, pokazują, że te korzyści prawdopodobnie nie są dziełem przypadku i pozostają stabilne w warunkach hałaśliwych i nierównych danych.

Co to oznacza dla codziennego bezpieczeństwa

Mówiąc wprost, praca pokazuje, jak przekształcić rozproszone, pisane przez ludzi raporty i surowe ślady sieciowe w działający, godny zaufania system wczesnego ostrzegania. Łącząc zaawansowane rozumienie języka, adaptacyjne uczenie i księgę odporną na manipulacje, ramy te wykrywają zagrożenia dokładniej, reagują szybciej — skracając czas przetwarzania partii raportów o około połowę — i zachowują wiarygodną historię tego, co zostało zauważone i zdecydowane. Dla banków, szpitali, zakładów przemysłowych i środowisk internetu rzeczy taki system mógłby stanowić współdzieloną, przejrzystą podstawę obrony cybernetycznej — która ciągle się poprawia w miarę pojawiania się nowych ataków, zamiast czekać, aż statyczne zestawy reguł nadrobią zaległości.

Cytowanie: Mishra, S., Alfahidah, R.A. & Alharbi, F. BERT-spaCy hybrid NLP and blockchain-enhanced adaptive CTI for IOC extraction and threat prediction. Sci Rep 16, 8147 (2026). https://doi.org/10.1038/s41598-025-34505-2

Słowa kluczowe: wywiad o zagrożeniach cybernetycznych, wykrywanie złośliwego oprogramowania, bezpieczeństwo blockchain, uczenie maszynowe, naruszenie sieci