Clear Sky Science · ru
Мониторинг сельскохозяйственного окружения и идентификация объектов на основе оптимизированных конфигураций You Only Look Once и Single Shot Multibox Detector с использованием комбинированных видимых и тепловых изображений
Более умные «глаза» для безопасной работы машин на ферме
Современные трактора и комбайны становятся крупнее, быстрее и всё более автоматизированными, что ставит простой, но критичный вопрос: как гарантировать, что они не допустят наезд на людей, животных или другие машины, скрытые в пыли, тумане или темноте? В этой статье описана практическая система безопасности, которая даёт сельскохозяйственной технике своего рода «суперзрение» путём комбинирования обычных видеокамер и тепловизоров, а также сравниваются разные ИИ-конфигурации, чтобы выяснить, какие из них обнаруживают опасности точнее и быстрее.
Почему в сельском хозяйстве нужна улучшенная видимость
Современное сельское хозяйство во многом полагается на большие мощные машины, которые работают долгие часы, часто ночью или в плохую погоду. Обычная видеокамера может помочь оператору видеть вокруг трактора, но стандартные изображения теряют информативность при тумане, дожде, ярких бликах или в темноте. Тепловизоры, которые фиксируют тепло, а не свет, надёжно работают в таких сложных условиях и выделяют тёплые объекты — людей и животных — на фоне. Авторы утверждают, что сочетание обоих типов изображений — наилучший путь к созданию доступной системы оповещения, которую можно установить на уже имеющуюся технику и интегрировать со стандартными панелями управления трактора.
Как работают двойная и единая системы
Команда установила комбинированный блок с RGB (обычное цветное) и тепловой камерами на крыше трактора и передавала оба потока изображений на недорогой вычислительный модуль в кабине. Они исследовали два основных подхода использования ИИ для обнаружения объектов на этих изображениях. В первом, «двухсетевом» подходе, одна нейросеть обучалась только на видимых изображениях, а вторая — только на тепловых; их результаты затем объединялись. Во втором, «единым» подходе, два изображения тщательно выравнивались, складывались вместе и подавались в одну сеть, которая обучалась сразу на обоих типах данных. Обе архитектуры были реализованы с семейством быстрых моделей обнаружения объектов, известных как YOLOv8, а также с альтернативной конструкцией SSD, адаптированной для небольших встроенных компьютеров. 
Формирование и обучение «зрения» машины для поля
Чтобы обучить эти сети тому, что нужно искать, исследователи собрали большой набор данных из публичных библиотек изображений и собственных записей камер. Изображения включали людей, диких и домашних животных, тракторы, комбайны, грузовики, автобусы и другие сельскохозяйственные машины как в видимом, так и в тепловом виде. Каждый объект был окружён вручную нанесённым прямоугольником и помечен классом, после чего изображения были подвергнуты аугментации — отражению, поворотам или лёгкому размытия — чтобы имитировать разнообразие, встречающееся в реальном поле. Данные были разделены на обучающую, валидационную и тестовую части, чтобы сети учились на одной подсекции и объективно оценивались на ранее не виденных изображениях. Особое внимание уделялось не только чистой точности, но и числу вычислительных операций и количеству кадров в секунду, необходимых каждой модели, поскольку реальная система для трактора должна работать быстро и надёжно в полевых условиях.
Какие цифровые «глаза» показали себя лучше?
По тысячам тестовых изображений все конфигурации YOLOv8 хорошо обнаруживали большинство целей, особенно крупные сельхозмашины и тёплокровных животных. Унифицированная модель, принимавшая одновременно RGB и тепловые данные в одном потоке, достигла общего показателя (mean average precision) около 0.90, немного опередив двухсетевую схему с 0.88. Иными словами, слияние обоих видов зрения внутри одной сети дало небольшой, но ощутимый прирост производительности без усложнения эксплуатации системы. Наибольшую выгоду от тепловизора показали люди и животные в условиях плохой освещённости, тогда как обычные изображения оставались лучше для детализации форм, таких как тракторы. При замене YOLOv8 на упрощённую модель SSD производительность заметно упала для большинства классов, хотя SSD обучалась значительно быстрее. YOLOv8, особенно её наименьшая версия «Nano», обеспечила более высокую точность при достижении реального времени около 27 кадров в секунду на умеренном оборудовании. 
Преобразование обнаружений ИИ в простые предупреждения
Вместо того чтобы перегружать водителя видеопотоками, система преобразует обнаружения в простой интерфейс приборной панели, соответствующий распространённому стандарту связи тракторов (ISOBUS). На простой зелёной панели иконки показывают, находится ли перед машиной человек, животное или транспортное средство, а также расстояние, направление и степень уверенности системы. Этот упрощённый интерфейс может работать на существующих терминалах оператора и рассчитан на суровые условия фермы: предусмотрены защищённые корпуса камер, стабилизированные крепления и планируемые механизмы защиты от пыли и температурных воздействий в будущих версиях.
Что это значит для повседневного сельского хозяйства
Для неспециалиста главный вывод таков: оснащение тракторов «двумя видами глаз» и подбор соответствующего ИИ-блока может значительно повысить безопасность без необходимости экзотического оборудования. Одна тщательно настроенная сеть YOLOv8, объединяющая видимые и тепловые изображения, предлагает лучшее сочетание точности, скорости и простоты среди протестированных вариантов и явно превосходит конструкцию SSD. Хотя система всё ещё испытывает трудности с распознаванием людей во всех ситуациях — отчасти из-за меньшего числа примеров людей в обучающем наборе — исследование демонстрирует, что практические системы оповещения на основе камер для сельхозтехники реальны и близки к готовности к полевому применению. С более сбалансированными данными и улучшенными методами слияния будущие версии могут помочь предотвратить несчастные случаи, защитить дикую природу и сделать масштабное сельское хозяйство безопаснее для всех, кто находится на поле и вокруг него.
Цитирование: Tarasiuk, K., Mystkowski, A., Ostaszewski, M. et al. Agriculture surrounding monitoring and object identification based on optimized you only look once and single shot multibox detector setups using combined vision and thermal images. Sci Rep 16, 5129 (2026). https://doi.org/10.1038/s41598-026-36181-2
Ключевые слова: безопасность в сельском хозяйстве, тепловизионная съёмка, компьютерное зрение, обнаружение объектов, YOLOv8