Clear Sky Science · ru

Всеобъемлющая оценка легковесных моделей глубокого обучения для классификации болезней томатов в средах периферийных вычислений

· Назад к списку

Более внимательные «глаза» для томатных растений

Во всём мире значительная часть потенциального урожая томатов теряется из‑за болезней листьев. Сегодня фермеры могут фотографировать листья на телефон или полевую камеру, а искусственный интеллект (ИИ) помогает выявлять проблемы на ранней стадии. Но есть загвоздка: многие из наиболее точных моделей ИИ слишком тяжёлые, чтобы запускаться на дешёвых устройствах в полях и теплицах. В этом исследовании поставлен практический вопрос: какие компактные модели ИИ одновременно точно обнаруживают болезни томатов и быстро работают на небольшом, недорогом оборудовании рядом с растениями?

Почему важны фотографии листьев томатов

Болезни томатов часто проявляются сначала в виде пятен, плесени или обесцвечивания на листьях, и раннее обнаружение может предотвратить серьёзные потери урожая. Авторы опираются на популярный публичный набор изображений PlantVillage, сосредоточив внимание на более чем 18 000 фото листьев томатов, охватывающих девять болезней и здоровые растения. Все изображения стандартизированы и слегка модифицируются во время обучения, чтобы имитировать реальные изменения, такие как освещение, масштаб и небольшие смещения положения. Это позволяет исследователям проверить, насколько хорошо разные модели ИИ учатся распознавать визуальные признаки, отличающие, например, раннюю гниль от поздней, или здоровый лист от заражённого вирусом.

Figure 1
Figure 1.

Сравнение множества компактных, вдохновлённых мозгом моделей

Вместо того чтобы разрабатывать ещё одну новую модель с нуля, команда организует честное соревнование между семью компактными архитектурами глубокого обучения. Некоторые из них — классические сети распознавания изображений, успешно применявшиеся во множестве задач, такие как VGG16, ResNet50 и DenseNet121. Другие — более новые решения, созданные специально для эффективной работы на телефонах и встраиваемых устройствах, например MobileNetV3‑Small, ShuffleNetV2 и SqueezeNet. Последний участник, MobilePlantViT, представляет гибридный подход, сочетающий два принципа: традиционные сверточные слои, улавливающие мелкие детали в локальных областях изображения, и трансформероподобное внимание, связывающее удалённые части листа для понимания общей картины болезни.

Заглянуть в решения ИИ

Чтобы фермеры и агрономы доверяли этим моделям, недостаточно лишь точности — они должны быть ещё и понятными. Поэтому авторы используют три популярные техники «объяснимого ИИ», создающие тепловые карты поверх каждого изображения листа и показывающие, какие области сильнее всего повлияли на решение. Это Grad‑CAM, LIME и SHAP. Чтобы выйти за рамки простого визуального сравнения цветных карт, команда предлагает новую метрику — Perturbation Stability Score. Добавляя небольшие шумы к изображению многократно и сравнивая, насколько меняются карты объяснений, они измеряют стабильность и надёжность каждого метода объяснения. В целом SHAP даёт наиболее устойчивые объяснения, тогда как Grad‑CAM демонстрирует чёткие, высокоразрешённые выделения поражённых участков, хорошо совпадающие с человеческими ожиданиями.

Скорость и энергопотребление на реальных устройствах

Поскольку сельскохозяйственные инструменты часто опираются на недорогие процессоры без графических ускорителей, исследователи измеряют, как быстро каждая модель работает на стандартных настольных CPU и на Raspberry Pi 5 — небольшом доступном компьютере, сопоставимом по характеристикам с оборудованием, используемым в умных камерах. Они фиксируют размер модели, количество базовых математических операций на изображение и время обработки одного фото при разных режимах многопоточности. Стандартные сети вроде VGG16 обеспечивают отличную точность, но очень большие и медленные, тогда как крошечные модели вроде SqueezeNet работают быстро, но теряют в точности, особенно на более шумных изображениях и в полевых условиях. MobilePlantViT выделяется: он достигает точности выше 99% на чистых изображениях и остаётся конкурентоспособным в более реалистичных тестах, при этом требуя лишь малую долю памяти и вычислений, обеспечивая почти реальное время обработки даже на ограниченном оборудовании.

Figure 2
Figure 2.

Что это значит для будущих умных ферм

В целом исследование показывает, что тщательно продуманные легковесные модели могут перенести высококлассное распознавание изображений на периферию поля, где ограничены связь и питание. Среди протестированных архитектур MobilePlantViT предлагает лучшее сочетание точной диагностики, эффективного использования вычислительных ресурсов и понятных визуальных объяснений того, «на что» модель обращает внимание при предсказании болезни. Для фермеров и разработчиков технологий это указывает на будущее, в котором маленькие недорогие устройства на телефонах, дронах или рейках теплиц смогут непрерывно сканировать томатные растения, выделять подозрительные листья и обосновывать свои предупреждения так, чтобы агрономы могли их верифицировать и доверять им.

Цитирование: Hoang, TM., Bui, VH., Nguyen, VS. et al. A comprehensive evaluation of lightweight deep learning models for tomato disease classification on edge computing environments. Sci Rep 16, 12320 (2026). https://doi.org/10.1038/s41598-026-42439-6

Ключевые слова: обнаружение болезней томатов, edge AI, легковесное глубокое обучение, vision transformer, объяснимый ИИ