Clear Sky Science · pl
Wyjątkowa odporność na zatrucie danych i podatność na oduczanie w kwantowym uczeniu maszynowym
Dlaczego oczyszczanie złych danych ma znaczenie dla SI
Nowoczesne systemy sztucznej inteligencji uczą się na ogromnych zbiorach przykładów, które jednak często są niedoskonałe. Niektóre etykiety są błędne przez pomyłkę, inne mogą być celowo zmanipulowane. Gdy takie „zatrute” dane trafią do treningu, mogą po cichu skrzywiać zachowanie modelu w szkodliwy sposób. Ten artykuł stawia zaskakujące pytanie: jeśli skonstruujemy systemy uczące się na komputerach kwantowych zamiast klasycznych, czy będą one inaczej reagować na złe dane — i czy łatwiej będą potrafiły je zapomnieć, gdy zajdzie taka potrzeba?

Dwa sposoby uczenia się z nieporządnych informacji
Autorzy porównują dwa rodzaje sieci neuronowych trenowanych do tych samych zadań. Jedna to znana klasyczna sieć — stos połączeń z wagami działający na zwykłym komputerze. Druga to kwantowa sieć neuronowa, która wykorzystuje kubity i bramki kwantowe do przetwarzania informacji w superpozycji. Obie mają rozwiązać dwa typy problemów klasyfikacji: rozróżnianie ręcznie pisanych cyfr w zbiorze MNIST oraz rozróżnianie dwóch faz materii w modelu fizyki kwantowej. W każdym przypadku badacze celowo zanieczyszczają część danych treningowych — albo przez odwracanie etykiet wybranych przykładów, albo przez zastępowanie cech wejściowych losowym szumem — i obserwują, jak każdy model sobie z tym radzi.
Gdy etykiety kłamią, modele kwantowe pozostają pewne
Najwyraźniejsza różnica ujawnia się przy odwróconych etykietach. Sieć klasyczna stara się dopasować do każdego przykładu treningowego, włącznie ze sprzecznymi, i stopniowo zniekształca swoją granicę decyzyjną, by je uwzględnić. Jej wydajność na nowych, niewidzianych danych stopniowo spada wraz ze wzrostem odsetka zniekształconych etykiet. W przeciwieństwie do tego sieć kwantowa prezentuje trwałe plateau: w szerokim zakresie poziomów szumu nadal dobrze klasyfikuje czyste dane walidacyjne, efektywnie ignorując odosobnione błędnie opisane przykłady. Dopiero gdy zniekształcone etykiety stają się dominujące — w okolicach punktu, w którym połowa etykiet jest błędna — jej wydajność gwałtownie się załamuje, w sposób przypominający przejście fazowe. Takie zachowanie sugeruje, że kwantowy uczeń faworyzuje najprostszy, najbardziej spójny wzorzec w danych i traktuje rozproszone sprzeczności jako nieistotne zakłócenia, dopóki nie przyćmią one prawdziwego sygnału.
Łatwiejsze zapominanie złego treningu przez modele kwantowe
Ponadto autorzy badają „oduczanie maszynowe”: jak efektywnie można zmusić wytrenowany model do zapomnienia wpływu złych danych bez rozpoczynania od zera. Eksplorują kilka strategii, takich jak retrening jedynie na czystej części danych, dopracowywanie modelu wyjściowego z zatruciem, eksplicytne zniechęcanie modeli do predykcji wyuczonych na złej podgrupie oraz stosowanie kroków gradientowych cofających wpływ tych przykładów. W przypadku sieci klasycznej wszystkie efektywne przybliżone metody pozostają w tyle za pełnym retreningiem, co wskazuje, że jej wewnętrzna reprezentacja utrwaliła się wokół zatrutych próbek. Sieć kwantowa zachowuje się inaczej. Nawet startując z zatrutego stanu, można nią kierować za pomocą przybliżonych metod oduczania tak, by w tym samym przedziale czasowym osiągnęła lub przewyższyła wydajność kosztownego retreningu. Pokazuje to, że jej wyuczona reprezentacja jest bardziej plastyczna — na tyle uporządkowana, by być użyteczną, a jednocześnie wystarczająco elastyczna, by można ją było skorygować.

Ukryty krajobraz stojący za odpornością i plastycznością
Aby wyjaśnić te kontrastujące zachowania, autorzy analizują „krajobraz funkcji straty”, wielowymiarową powierzchnię mierzącą, jak dobrze model dopasowuje dane dla każdego ustawienia parametrów. Dobrą generalizację łączy się z szerokimi, płaskimi dolinami w tym krajobrazie, podczas gdy krucha nadmierna adaptacja zwykle odpowiada ostrym, wąskim minimom. Analizując, jak krzywizna tego krajobrazu zmienia się po zatruciu danych, stwierdzają, że sieci klasyczne doświadczają dramatycznego zgrubienia: niegdyś płaski obszar wokół rozwiązania staje się bardzo ostry, gdy model pamięta błędnie opisane punkty. Wydostanie się z takiej stromej doliny podczas oduczania jest trudne, co tłumaczy upór klasycznych pamięci. Sieci kwantowe natomiast utrzymują niemal tę samą łagodną krzywiznę nawet po zatruciu. Ich krajobrazy są strukturalnie stabilne, ograniczone przez matematykę operacji kwantowych, co zapobiega tworzeniu bardzo ostrych minimów i naturalnie kieruje uczenie ku gładkim, uogólnialnym rozwiązaniom.
Co to oznacza dla przyszłej godnej zaufania SI
Dla osoby niebędącej specjalistą wniosek jest taki, że kwantowe uczenie maszynowe to nie tylko szybkość czy egzotyczny sprzęt. W tych eksperymentach modele kwantowe działają bardziej jak ostrożni redaktorzy niż obsesyjni skrybowie: wydobywają główną narrację z nieporządnych danych, opierają się wpływowi kilku złych przykładów i można je skłonić do zapomnienia szkodliwych wpływów bez konieczności przebudowy od podstaw. To połączenie odporności na zatrucie i gotowości do oduczania sugeruje nowy rodzaj przewagi kwantowej — zakorzenionej w niezawodności i bezpieczeństwie, a nie tylko w surowej mocy obliczeniowej — co wskazuje, że przyszłe systemy SI wspomagane kwantowo mogą być lepszymi partnerami w hałaśliwym, ciągle zmieniającym się świecie informacji.
Cytowanie: Chen, YQ., Zhang, SX. Superior resilience to poisoning and amenability to unlearning in quantum machine learning. Nat Commun 17, 3716 (2026). https://doi.org/10.1038/s41467-026-70420-4
Słowa kluczowe: kwantowe uczenie maszynowe, zatrucie danych, oduczanie maszynowe, odporna SI, krajobraz funkcji straty