Clear Sky Science · ru
BarkVisionAI: Новый набор данных для оперативной идентификации видов деревьев
Почему кора деревьев и камеры телефонов важны
Когда мы идём по лесу, мы обычно замечаем листья, цветы или высокие кроны. Но большую часть года — или в густых тенистых лесах — эти подсказки отсутствуют. В этом исследовании показано, что грубая, узорчатая «кожа» деревьев — их кора — в сочетании с обычными камерами смартфонов и современными методами искусственного интеллекта может стать мощным инструментом для быстрого определения видов деревьев и отслеживания состояния лесов по всей Индии и, возможно, в других регионах мира.

Новый способ видеть леса
Авторы BarkVisionAI поставили цель восполнить существенный пробел в том, как мы распознаём деревья. Большинство существующих фотоархивов для идентификации деревьев сосредоточены на листьях или других видимых частях, а имеющиеся наборы изображений коры обычно малы, охватывают ограниченные регионы и сняты в почти одинаковых условиях. В результате модели, обученные на таких данных, плохо работают в реальных, «грязных» лесных условиях. BarkVisionAI меняет это, собрав 156 001 фото коры 13 важных видов деревьев в разных типах лесов и экологических регионах Индии. Каждое изображение — это не просто снимок: оно связано с точными данными о местоположении, времени и камере, что создаёт ценный ресурс для экологии и искусственного интеллекта.
Как собирали изображения
Сбор такого объёма полезных снимков потребовал тесного взаимодействия с лесной службой и специально организованной полевой работы в двух индийских штатах — Химачал-Прадеш и Орисса, которые вместе охватывают восемь основных типов лесов и девять экологических регионов. Лесные инспекторы и служащие прошли обучение работе с цифровой платформой сбора данных на телефонах: как становиться на определённом расстоянии от ствола, держать камеру перпендикулярно коре и записывать точные координаты. Сбор данных проводился с января по декабрь 2024 года, охватывая сухие сезоны, муссон и зиму. Снимки делали утром, днём и вечером, в разных световых и погодных условиях, с помощью 315 различных моделей камер от 20 производителей. Такое преднамеренное разнообразие обеспечивает соответствие набора данных реальным проблемам работы в лесу, а не лабораторным, контролируемым условиям.
Преобразование «грязной» реальности в справедливый тест
Реальные леса вводят множество тонких смещений: возможно, один вид фотографируют преимущественно на определённый телефон, в конкретное время дня или на одной высоте над уровнем моря. Наивная модель ИИ может «жульничать», усваивая эти короткие пути вместо истинных узоров коры. Чтобы избежать этого, команда разработала тщательный процесс выборки. Из всей коллекции они сформировали сбалансированную подвыборку из 36 400 изображений, по ровно 2 800 фотографий на каждый вид. Изображения каждого вида распределяли по уровням высоты, сезонам, состоянию листьев (крона в листве или без листвы), времени суток и моделям камер. Эти факторы объединяли в детализированную сетку, и снимки отбирали так, чтобы ни одно освещение, устройство или высота не доминировали. В результате получилось не просто большое множество данных, а набор, предназначенный заставить ИИ обращать внимание именно на кору.

Проверка искусственного интеллекта
Имея в распоряжении этот сбалансированный набор, исследователи обучили несколько популярных моделей распознавания изображений, включая известные свёрточные нейронные сети и современную модель «vision transformer». Все изображения масштабировали до стандартных размеров и разделяли на обучающую, валидационную и тестовую части. Среди моделей наилучших результатов добилась сеть, известная как ResNet50, правильно определяя вид примерно в 87% тестовых изображений. При более детальном анализе выяснилось, что точность всё ещё падала в более сложных условиях — особенно при слабом вечернем освещении и на больших высотах, где среды более сложны. Эти закономерности подтвердили, что освещение, сезон и высота — реальные препятствия для ИИ, и что контроль этих факторов в наборе данных был необходим, чтобы выявить, где модели по-настоящему испытывают трудности.
Что это значит для лесов и будущих инструментов
BarkVisionAI демонстрирует, что повседневные инструменты — смартфон и прогулка по лесу — могут питать сложную систему для быстрой идентификации деревьев. Для защитников природы и лесных менеджеров это открывает путь к более быстрому картированию видов, лучшему отслеживанию биоразнообразия и более своевременному мониторингу изменений в окружающей среде. Для исследователей ИИ набор данных представляет собой требовательный эталон, захватывающий тонкие текстуры, смену сезонов и разнообразие устройств, подчёркивая, что распознавание по коре далеко от окончательного решения. Главная мысль исследования для неспециалистов проста: при внимательном проектировании данных и алгоритмов мы можем научить машины читать истории, написанные на коре деревьев, помогая лучше понимать и защищать леса.
Цитирование: Chhatre, A., Saini, N., Parmar, A.K. et al. BarkVisionAI: Novel dataset for rapid tree species identification. Sci Data 13, 343 (2026). https://doi.org/10.1038/s41597-026-06711-8
Ключевые слова: идентификация деревьев, мониторинг лесов, биоразнообразие, компьютерное зрение, леса Индии