Clear Sky Science · pl
Wpływ strategii augmentacji przestrzeni danych na dokładność modeli i uogólnianie w klasyfikacji skrawków cienkich
Dlaczego lepsze zdjęcia skał mają znaczenie
Głęboko pod ziemią to, jak zbudowane są skały, kontroluje, gdzie może przepływać lub być magazynowana woda, ropa, gaz, a nawet dwutlenek węgla. Geolodzy badają ultracienkie plasterki skał pod mikroskopem, żeby odczytać tę ukrytą architekturę. Coraz częściej komputery są trenowane, by rozpoznawać typy skał na podstawie takich obrazów. W artykule zadano pozornie proste pytanie o istotnych praktycznych konsekwencjach: kiedy sztucznie powiększamy zbiory obrazów przez „augmentację danych”, czy rzeczywiście czynimy komputer mądrzejszym — czy czasem możemy go pogorszyć?

Nauka komputerów przy ograniczonej liczbie zdjęć skał
Trenowanie systemu rozpoznawania obrazów zwykle wymaga tysięcy przykładów. W geologii zebranie takiej liczby mikroskopowych zdjęć jest powolne i kosztowne: próbki trzeba wywiercić, przeciąć, wypolerować i sfotografować, a wiele zestawów danych jest objętych poufnością firm. Autorzy pracowali z realistycznym zbiorem 34 775 zdjęć mikroskopowych cienkich skrawków, podzielonych na 36 kategorii skał, takich jak piaskowiec, wapień i bazalt. Zdefiniowali też mniejszą wersję „ograniczonych danych” z zaledwie 100 obrazami treningowymi i 50 walidacyjnymi na klasę, aby naśladować powszechną sytuację niedoboru danych.
Rozciąganie danych bez niszczenia skał
Aby zrekompensować brak obrazów, badacze często tworzą zmodyfikowane kopie oryginałów — odbicia lustrzane, przesunięcia, rotacje, przybliżenia lub mieszanie zdjęć — żeby model nauczył się ignorować nieistotne różnice. W tym badaniu porównano dwa ogólne sposoby postępowania. W augmentacji statycznej dodatkowe obrazy są tworzone i zapisywane przed treningiem, trwale powiększając zbiór danych. W augmentacji dynamicznej komputer generuje losowe transformacje w locie podczas treningu, więc przy każdym przebiegu może widzieć nieco inną wersję tej samej skały. Zespół przebadał 133 szczegółowe konfiguracje transformacji — od łagodnych odbić lustrzanych po ekstremalne przybliżenia i rotacje, a także bardziej zaawansowane „mieszanie obrazów”, gdzie dwie skały są matematycznie łączone lub składane razem.

Pięć sieci poddanych próbie
Badacze trenowali pięć różnych konwolucyjnych sieci neuronowych: trzy znane architektury wstępnie wytrenowane na codziennych fotografiach oraz dwa prostsze modele zbudowane od podstaw. W 691 oddzielnych eksperymentach mierzyli, jak często każdy model poprawnie klasyfikował obrazy walidacyjne po zastosowaniu różnych strategii augmentacji. Bez żadnej augmentacji i dysponując dużą ilością danych, najlepsza sieć wstępnie wytrenowana osiągała już około 98–99% dokładności. Przy mniejszym zestawie treningowym dokładność spadała, co sprawiało, że augmentacja mogła być wartościowa — ale wyniki wykazały, że nie wszystkie dodatkowe dane są pomocne.
Kiedy większa różnorodność szkodzi zamiast pomagać
Najbardziej uderzające odkrycie jest takie, że augmentacja to miecz obosieczny. Wiele powszechnie stosowanych zabiegów geometrycznych, zwłaszcza silne przybliżenia i duże rotacje, faktycznie obniżało dokładność, czasami drastycznie, gdy stosowano je dynamicznie podczas treningu. Operacje te mogą rozciągać lub rozmywać drobne ziarna minerałów i tekstury, które niosą kluczowe informacje geologiczne, skutecznie ucząc model zwracać uwagę na wzorce, które nie występują w rzeczywistych próbkach. Augmentacja statyczna, gdzie przekształcone obrazy są utrwalone i konsekwentnie wykorzystywane, zwykle prowadziła do bardziej stabilnych i czasem lepszych wyników. Proste odbicia i niewielkie przesunięcia okazywały się bezpieczne, ale agresywne transformacje były ryzykowne, chyba że były starannie kontrolowane.
Mieszanie obrazów dla lepszego uogólniania
Najbardziej obiecujące metody to techniki liniowego i nieliniowego mieszania obrazów, które łączą dwa obrazy skał, tworząc nowy przykład treningowy. Warianty polegające na uśrednianiu, dzieleniu na kafelki lub łączeniu piksel po pikselu konsekwentnie zachowywały lub poprawiały dokładność, zwłaszcza dla mniejszego zbioru danych. Model trenowany z użyciem takich statycznie zmiksowanych obrazów lepiej uogólniał do wcześniej niewidzianych danych, włączając syntetyczne obrazy skał wygenerowane przez inny system AI oraz rzeczywiste skały przetworzone w nietypowy sposób, na przykład z usuniętym tłem lub złożonymi zniekształceniami. Co znamienne, taki model, trenowany na znacznie mniejszej liczbie oryginalnych obrazów, czasem przewyższał znacznie większy model wytrenowany na pełnym, nieaugmentowanym zbiorze.
Co to oznacza dla przyszłości geologicznego AI
Dla osób niebędących specjalistami kluczowy wniosek jest taki, że „więcej danych” powstałych z prostych trików obrazowych nie czyni systemu AI automatycznie bardziej wiarygodnym. W delikatnych teksturach obrazów mikroskopowych pewne zniekształcenia mogą zatrzeć dokładnie te cechy, na których zależy geologom. Badanie wykazuje, że starannie dobrana augmentacja statyczna i przemyślane mieszanie obrazów mogą częściowo zrekompensować ograniczone zasoby danych i poprawić zdolność modeli do radzenia sobie z nowymi, nieznanymi obrazami. Jednocześnie bezkrytyczne stosowanie agresywnych, dynamicznych transformacji może cicho erodować dokładność. Innymi słowy, w automatycznej klasyfikacji skał — i prawdopodobnie w wielu zadaniach związanych z obrazowaniem naukowym — sposób, w jaki tworzymy nowe obrazy treningowe, ma tak samo duże znaczenie jak ich liczba.
Cytowanie: Habrat, M., Młynarczuk, M. Impact of data space augmentation strategy on model accuracy and generalization in thin-section rock classification. Sci Rep 16, 13927 (2026). https://doi.org/10.1038/s41598-026-44320-y
Słowa kluczowe: mikroskopia skał, augmentacja danych, geologia AI, klasyfikacja obrazów, skrawki cienkie