Clear Sky Science · pl

Prototypowo zorientowany kontrastowy mean‑teacher do beznadzorowej adaptacji domenowej wykrywania obiektów

2026-03-27 · Powrót do spisu

Nauczanie komputerów rozpoznawania obiektów w nowych warunkach

Nowoczesne systemy sztucznej inteligencji potrafią z dużą dokładnością znaleźć samochody, ludzi i znaki drogowe na zdjęciach — dopóki sceneria się nie zmieni. Detektor wytrenowany na słonecznych ulicach może mieć problemy we mgle, w nocy lub w stylizowanych obrazach. W pracy tej przedstawiono nowy sposób „uczenia nauczyciela” w takich systemach, który pozwala im dostosować się do nowych warunków bez konieczności ręcznego rysowania ramek przez ludzi.

Dlaczego detektory obiektów zawodzą, gdy świat się zmienia

Wykrywanie obiektów opiera się na dużych zbiorach oznaczonych obrazów, gdzie każdy samochód, autobus czy rower jest starannie obramowany. Kamery w rzeczywistych warunkach rzadko jednak odpowiadają warunkom treningowym. Różna pogoda, oświetlenie czy rodzaj kamery zmieniają wygląd obiektów — zjawisko znane jako przesunięcie domeny. W takim przypadku detektory wytrenowane w jednej domenie, na przykład na wyraźnych scenach miejskich w dzień, mogą zawodzić w innej, np. na mglistych autostradach czy nocnych nagraniach. Zbieranie nowych etykiet dla każdej sytuacji jest kosztowne, więc badacze poszukują metod adaptacji detektorów wykorzystujących wyłącznie nieoznakowane dane z nowej domeny.

System uczący się sam z wbudowanym przewodnikiem

Popularna strategia polega na tym, że model uczy się samodzielnie. Sieć „nauczyciel”, zbudowana jako wygładzona wersja sieci „uczeń”, przewiduje ramki na nieoznakowanych obrazach docelowych; te przewidywania, zwane pseudo‑etykietami, następnie uczą ucznia. Z czasem uczeń się poprawia, a nauczyciel jest aktualizowany jako średnia krocząca wag ucznia. Jeśli jednak wczesne pseudo‑etykiety są błędne — np. pomijają obiekty gęstej mgle — błędy mogą się kumulować. Autorzy pokazują, że trzy pomysły można połączyć, aby ustabilizować to samouczenie: układ mean‑teacher, uczenie kontrastowe (które przyciąga powiązane cechy i odpycha inne) oraz zwarte „prototypy” podsumowujące każdą kategorię obiektów.

Prototypy jako punkty orientacyjne w przestrzeni cech

Rdzeniem proponowanego ramienia PoCoMT jest Prototype Alignment Network, czyli ProtoAN. Zamiast porównywać każdy obiekt z każdym innym, ProtoAN uczy niewielkiego zestawu reprezentatywnych punktów — prototypów — dla każdej kategorii, na przykład samochodu czy pieszego. Cechy wyodrębnione z regionów obrazu są mapowane do specjalnej przestrzeni, w której przykłady tej samej kategorii z różnych domen gromadzą się wokół wspólnego prototypu, podczas gdy różne kategorie są od siebie odsunięte. Funkcja straty kontrastowej zachęca do takiego grupowania, zarówno w pojedynczej domenie, jak i między domeną źródłową a docelową. Co istotne, mechanizm ten traktuje również tło jako odrębną kategorię, co pomaga systemowi odróżniać prawdziwe obiekty od zaśmiecenia.

Lepsze wykorzystanie nieoznakowanych danych

PoCoMT poprawia pseudo‑etykiety nauczyciela na dwa sposoby. Po pierwsze, cel „maksymalizacji informacji” skłania przewidywania na obrazach docelowych do tego, by były jednocześnie pewne dla każdego obiektu i zróżnicowane między kategoriami, unikając trywialnego zachowania polegającego na oznaczaniu wszystkiego tą samą klasą. Po drugie, ProtoAN udoskonala pseudo‑etykiety przez porównanie cech z prototypami zamiast bezwarunkowego polegania na surowych przewidywaniach. Jeśli przewidywana klasa regionu nie zgadza się z najbliższym prototypem, etykieta może być skorygowana. To sprawia, że system jest bardziej odporny na szum: nawet gdy autorzy celowo skorygowali wiele pseudo‑etykiet podczas treningu, PoCoMT degradował się łagodniej niż konkurencyjne metody.

Mocniejsze detektory dla trudnych scen rzeczywistych

Testowany na szerokim zestawie benchmarków — w tym scenach od wyraźnych po mglistość, z syntetycznych do rzeczywistych obrazów drogowych, z dnia na zmierzch oraz z realistycznych do artystycznych obrazów — PoCoMT konsekwentnie przewyższał istniejące techniki beznadzorowej adaptacji domenowej, często o kilka punktów procentowych w dokładności wykrywania. W niektórych przypadkach osiągnął nawet lepsze wyniki niż modele wytrenowane bezpośrednio na oznaczonych danych docelowych, dzięki umiejętności wykorzystania zarówno oznaczonych obrazów źródłowych, jak i obfitych nieoznakowanych obrazów docelowych. Dla nietechnicznych odbiorców przekaz jest prosty: pozwalając detektorowi obiektów organizować własne wewnętrzne „punkty orientacyjne” dla każdej kategorii oraz starannie kierując wymianą informacji między nauczycielem a uczniem, podejście to czyni systemy widzenia komputerowego bardziej odporne, gdy świat wygląda inaczej niż dane treningowe.

Cytowanie: Cao, Q., Tao, J., Dan, Y. et al. Prototype-oriented contrastive mean-teacher for unsupervised domain adaptive object detection. Sci Rep 16, 10869 (2026). https://doi.org/10.1038/s41598-026-44991-7

Słowa kluczowe: beznadzorowa adaptacja domenowa, wykrywanie obiektów, samouczenie, uczenie kontrastowe, uczenie prototypów