Clear Sky Science · pl

Ensemble transformerów wizji i Swin z objaśnieniami opartymi na LLM do diagnozy chorób liści trzciny cukrowej

2026-03-29 · Powrót do spisu

Dlaczego wykrywanie chorych liści trzciny cukrowej ma znaczenie

Trzcina cukrowa jest podstawową uprawą dla produkcji cukru, biopaliw i dla wielu wiejskich źródeł utrzymania, lecz jej liście są podatne na szereg chorób, które po cichu obniżają plony. Rolnicy zazwyczaj polegają na inspekcji wzrokowej, która może być powolna, niespójna i trudna do rozszerzenia na duże pola. W artykule badano, jak nowoczesna sztuczna inteligencja może automatycznie analizować zdjęcia liści, aby wykrywać wiele chorób trzciny cukrowej z wysoką dokładnością, a następnie wykorzystać model językowy do przekształcenia tych prognoz w prosty, zrozumiały język dla rolników.

Jak zdjęcia liści zamienia się w dane

Naukowcy zbudowali swój system, korzystając z otwartej kolekcji zdjęć liści trzciny cukrowej z Kaggle, zawierającej prawie dwadzieścia tysięcy kolorowych fotografii. Każde zdjęcie należy do jednej z sześciu kategorii: zdrowy lub jedna z pięciu powszechnych chorób, w tym Bacterial Blight (rak bakteryjny), Mosaic (mozaika), Red Rot (czerwone zgorzel), Rust (rdza) oraz Yellow Leaf Disease (żółknięcie liści). Fotografie wykonano w prawdziwych warunkach polowych, więc zawierają zmienne oświetlenie, cienie i zagracone tła. W przygotowaniu danych zespół usunął duplikaty i uszkodzone obrazy, a następnie podzielił zbiór na zestawy treningowy, walidacyjny i testowy, zachowując równowagę typów chorób w każdej części. Podczas treningu stosowano augmentację tylko dla obrazów treningowych — rotacje, odbicia i powiększenia — aby naśladować różne kąty i odległości kamery, co zwiększyło odporność systemu bez sztucznego zawyżania wyników testowych.

Dwa uzupełniające się sposoby patrzenia na liść

W centrum badania znajduje się „ensemble”, który łączy dwa zaawansowane modele wizji znane jako transformerami. Jeden, Vision Transformer (ViT), traktuje obraz jako zbiór patchy (fragmentów) i uczy się wzorców rozciągających się po całym liściu naraz. Ten globalny ogląd jest odpowiedni dla chorób rozprzestrzeniających się jako duże, rozproszone obszary przebarwień. Drugi, zwany Swin Transformer, pracuje na mniejszych, nakładających się oknach przesuwających się po obrazie, budując warstwowe rozumienie drobnych tekstur i małych plamek. To lokalne skupienie pomaga w przypadku chorób objawiających się jako drobne zmiany, smugi czy punkciki. Z założenia ViT jest czuły na szerokie zmiany barwy, podczas gdy Swin zwraca uwagę na drobne, skupione detale — to dwie perspektywy, w których rzeczywiste choroby liści pojawiają się na polu.

Jak oba modele łączą siły

Zamiast budować skomplikowaną, nową sieć, autorzy łączą ViT i Swin w prosty i przejrzysty sposób. Każdy model najpierw analizuje to samo zdjęcie liścia i generuje własne prawdopodobieństwa dla sześciu klas. Wyniki te są następnie uśredniane, bez dodatkowych wag do wyuczenia, a najwyższe skumulowane prawdopodobieństwo decyduje o ostatecznej diagnozie. Ta strategia uśredniania równoważy mocne strony każdego modelu i zapobiega nadmiernemu dopasowaniu do zbioru, który choć stosunkowo duży, nadal odzwierciedla konkretne regiony i warunki. Eksperymenty pokazują, że zastąpienie Swin tradycyjną siecią konwolucyjną powoduje utratę kluczowych lokalnych detali, a użycie samego ViT pomija subtelne wskazówki — co dowodzi, że zysk wynika z prawdziwej synergii globalnej i lokalnej uwagi, a nie tylko z nakładania kolejnych modeli.

Jak system sprawdza się w praktyce

Na wydzielonym zestawie testowym liczącym prawie trzy tysiące zdjęć, ensemble osiąga około 97 procent dokładności, z podobnie wysokimi wartościami precyzji, czułości i F1 dla wszystkich sześciu klas. Przewyższa silne konwolucyjne modele bazowe, takie jak ResNet, EfficientNet, MobileNet i DenseNet, a także pojedyncze modele ViT i Swin. Macierz pomyłek pokazuje, że większość błędów występuje między wizualnie podobnymi chorobami, takimi jak Yellow Leaf i Mosaic, ale ogólne wskaźniki błędnej klasyfikacji pozostają niskie. Krzywe ROC dla każdej klasy są niemal doskonałe, co wskazuje, że ensemble jest bardzo pewny i spójny w rozróżnianiu liści zdrowych od chorych oraz pomiędzy różnymi typami chorób.

Przekształcanie prognoz w zrozumiałe porady dla rolników

Aby wyjść poza surowe etykiety, autorzy połączyli swój zestaw obrazowy z dużym modelem językowym (LLM) hostowanym online. Po sklasyfikowaniu zdjęcia liścia przewidywana nazwa choroby jest wysyłana do LLM, który zwraca krótkie objaśnienie prawdopodobnych objawów i ogólne sugestie zarządzania, przeznaczone dla rolników i doradców rolniczych. Interfejs webowy zbudowany na platformie Hugging Face pozwala użytkownikom przesłać zdjęcie liścia, zobaczyć przewidywaną chorobę i w ciągu kilku sekund przeczytać wygenerowane przez AI wskazówki. Autorzy podkreślają, że zalecenia te mają charakter doradczy i powinny być weryfikowane przez ekspertów agronomii, ponieważ LLM-y mogą czasem generować zbyt pewne lub niepełne porady. Mimo to warstwa językowa sprawia, że system jest bardziej przystępny dla osób bez specjalistycznego wykształcenia.

Co to oznacza dla przyszłych narzędzi smart farming

Mówiąc najprościej, badanie pokazuje, że połączenie dwóch „sposobów widzenia” tego samego liścia — jednego widzącego las, drugiego widzącego drzewa — może dać bardzo niezawodnego cyfrowego zwiadowcę chorób trzciny cukrowej. Ensemble ViT i Swin Transformerów wychwytuje zarówno szerokie, jak i drobnoziarniste symptomy, podczas gdy dołączony model językowy pomaga przełożyć techniczne prognozy na przyjazne dla człowieka sugestie. Chociaż modele wciąż wymagają testów w większej liczbie regionów, warunków oświetleniowych i na różnych urządzeniach, a wyjścia językowe potrzebują opinii ekspertów, praca ta wskazuje kierunek praktycznych narzędzi na telefony czy tablety, które mogłyby pomóc rolnikom szybko wykrywać problemy, zmniejszać zgadywanie i wspierać precyzyjniejsze stosowanie środków w uprawie trzciny cukrowej, a ostatecznie także wielu innych roślin.

Cytowanie: Saritha, M., Rasane, K. An ensemble of vision and swin transformers with LLM-based explanations for sugarcane leaf disease diagnosis. Sci Rep 16, 10707 (2026). https://doi.org/10.1038/s41598-026-45453-w

Słowa kluczowe: wykrywanie chorób trzciny cukrowej, modele wizji typu transformer, rolnictwo precyzyjne, obrazowanie liści roślin, wsparcie decyzji AI