Clear Sky Science · ru

Ансамбль Vision- и Swin-трансформеров с объяснениями на основе крупной языковой модели для диагностики заболеваний листьев сахарного тростника

2026-03-29 · Назад к списку

Почему важно выявлять больные листья тростника

Сахарный тростник является базовой культурой для производства сахара, биотоплива и источником средств к существованию во многих сельских районах, но его листья уязвимы к ряду болезней, которые незаметно снижают урожайность. Фермеры обычно полагаются на визуальный осмотр, который может быть медленным, непоследовательным и трудно масштабируемым на больших полях. В этой статье исследуется, как современные методы искусственного интеллекта могут автоматически анализировать фотографии листьев для обнаружения нескольких заболеваний тростника с высокой точностью, а затем использовать языковую модель для преобразования прогнозов в понятные рекомендации для фермеров.

Как фотографии листьев превращают в данные

Исследователи построили систему на основе открытой коллекции изображений листьев тростника с Kaggle, содержащей почти двадцать тысяч цветных фотографий. Каждое изображение принадлежит одной из шести категорий: здоровый или одна из пяти распространённых болезней, включая бактериальное пятнистое увядание (Bacterial Blight), мозаичную болезнь (Mosaic), красное гниение (Red Rot), ржавчину (Rust) и желтую листовую болезнь (Yellow Leaf Disease). Фотографии сделаны в реальных полевых условиях, поэтому в них присутствуют меняющееся освещение, тени и загромождённые фоны. Для подготовки данных команда удаляла дубликаты и повреждённые изображения, затем разделила набор на обучающую, валидационную и тестовую выборки, сохраняя одинаковый баланс типов заболеваний в каждой. Во время обучения они аугментировали только обучающие изображения поворотами, отражениями и масштабированием, чтобы имитировать разные углы съёмки и дистанции, делая систему более устойчивой без искажения её итоговой тестовой производительности.

Два дополняющих друг друга способа «смотреть» на лист

В основе исследования — ансамбль, который объединяет две продвинутые визуальные модели, известные как трансформеры. Одна из них, Vision Transformer (ViT), рассматривает изображение как набор патчей и обучается находить паттерны по всему листу сразу. Такой глобальный взгляд хорошо подходит для заболеваний, которые проявляются крупными, размытыми зонами обесцвечивания. Другая модель, Swin Transformer, работает с меньшими перекрывающимися окнами, которые перемещаются по изображению, формируя поэтапное понимание тонкой текстуры и мелких пятен. Этот локальный фокус помогает выявлять болезни, проявляющиеся в виде крошечных поражений, полос или точек. По замыслу, ViT чувствителен к широким цветовым изменениям, в то время как Swin обращает внимание на мелкие, сгруппированные детали — два аспекта того, как реальные заболевания проявляются в поле.

Как две модели объединяют силы

Вместо построения сложной новой сети авторы объединяют ViT и Swin простым и прозрачным способом. Каждая модель сначала анализирует одно и то же изображение листа и выдаёт собственные вероятностные оценки по шести классам. Эти оценки затем усредняются без дополнительных обучаемых весов, и класс с наивысшей объединённой вероятностью определяет окончательный диагноз. Такая стратегия усреднения уравновешивает сильные стороны каждой модели и предотвращает переобучение на наборе данных, который при всей своей внушительности всё ещё отражает конкретный набор регионов и условий. Эксперименты показывают, что замена Swin традиционной сверточной сетью лишает систему важных локальных деталей, а использование только ViT упускает тонкие признаки — доказательство того, что выигрыш достигается благодаря настоящей синергии глобального и локального внимания, а не просто увеличением числа моделей.

Насколько система эффективна на практике

На отложенной тестовой выборке почти из трёх тысяч изображений ансамбль достигает точности примерно 97 процентов, а также сопоставимо высоких значений точности, полноты и F1-мер по всем шести классам. Он превосходит сильные сверточные эталоны, такие как ResNet, EfficientNet, MobileNet и DenseNet, а также отдельные модели ViT и Swin. Матрица ошибок показывает, что большинство промахов происходит между визуально похожими заболеваниями, например Желтая листовая болезнь и Мозаика, но в целом доля неверных классификаций остаётся низкой. ROC-кривые для каждого класса почти идеальны, что указывает на высокую уверенность и устойчивость ансамбля в разделении здоровых и больных листьев, а также между различными типами заболеваний.

Преобразование прогнозов в понятные рекомендации для фермеров

Чтобы выйти за рамки простых меток, авторы связали свой ансамбль изображений с крупной языковой моделью (LLM), размещённой онлайн. После классификации фотографии листа предсказанное название болезни отправляется в LLM, которая возвращает краткое объяснение вероятных симптомов и общие рекомендации по управлению, предназначенные для фермеров и агрономических консультантов. Веб-интерфейс на платформе Hugging Face позволяет пользователям загрузить изображение листа, увидеть предсказанное заболевание и прочитать сгенерированные ИИ рекомендации за несколько секунд. Авторы подчёркивают, что эти рекомендации носят консультативный характер и требуют проверки специалистами-агрономами, поскольку LLM иногда могут генерировать чересчур уверенные или неполные советы. Тем не менее языковой слой делает систему более доступной для неспециалистов.

Что это значит для будущих инструментов умного земледелия

Проще говоря, исследование показывает, что объединение двух «способов видеть» один и тот же лист — один видит «лес», другой видит «деревья» — может дать надёжного цифрового разведчика для обнаружения болезней тростника. Ансамбль ViT и Swin-трансформеров улавливает как широкие, так и тонкозернистые признаки, а подключённая языковая модель помогает перевести технические прогнозы в удобоваримые рекомендации. Хотя модели ещё нужно тестировать в большем числе регионов, при различных условиях освещения и на разных устройствах, а тексты требуют проверки экспертами, эта работа указывает путь к практичным приложениям для телефонов или планшетов, которые могли бы помочь фермерам раньше заметить проблемы, сократить догадки и поддержать более точное применение средств защиты растений в сахарном тростнике и, в перспективе, во многих других культурах.

Цитирование: Saritha, M., Rasane, K. An ensemble of vision and swin transformers with LLM-based explanations for sugarcane leaf disease diagnosis. Sci Rep 16, 10707 (2026). https://doi.org/10.1038/s41598-026-45453-w

Ключевые слова: обнаружение болезней сахарного тростника, визуальные модели-трансформеры, точное земледелие, изображения листьев растений, инструменты поддержки принятия решений на ИИ