Clear Sky Science · ru

Обрезка леса деревьев и повторная выборка для задачи несбалансированных классов

· Назад к списку

Почему редкие случаи важны в умных прогнозах

Многие решения, основанные на искусственном интеллекте, зависят от обнаружения редкого события: мошеннической операции по карте, раннего признака болезни или опасного отказа в машине. В таких ситуациях важные случаи сильно уступают по численности обычным, и большинство алгоритмов обучения склонны их игнорировать. В этой статье представлен способ сделать один популярный метод, случайные леса, гораздо внимательнее к этим редким, но критически важным случаям — при этом сделав модель компактнее и быстрее.

Figure 1
Figure 1.

Проблема неравномерных примеров

Стандартные методы машинного обучения работают лучше всего, когда данные хорошо сбалансированы — когда число примеров для каждого исхода примерно одинаково. На практике же во многих задачах доминируют редкие события. Например, лишь малая часть медицинских снимков показывает опухоль, и лишь крошечная доля транзакций оказывается мошеннической. Такое несоответствие позволяет алгоритму выглядеть хорошо на бумаге, в основном предсказывая распространённый исход, даже если он постоянно пропускает редкий. По мере того как разрыв между частыми и редкими случаями растёт, граница решений модели смещается в сторону большинства, и распознавание редкого класса становится сложнее.

Уравновешивание при помощи умной выборки

Исследователи часто пытаются восстановить баланс в данных перед обучением моделей. Один вариант — сократить класс большинства (under-sampling), отбросив некоторые обычные примеры, чтобы их число приблизилось к числу редких. Другой — копировать или генерировать дополнительные редкие примеры (over-sampling), увеличивая их долю, не теряя исходные данные. Третий, гибридный подход сочетает оба приёма: убирают часть примеров большинства и одновременно усиливают класс меньшинства. У каждого подхода есть компромиссы: сокращение рискует выбросить полезную информацию, а дублирование множества примеров может замедлить обучение и привести к переобучению. Авторы используют все три стратегии, чтобы создавать более ровные обучающие наборы, адаптированные к конкретным данным.

Обучение и обрезка леса решающих деревьев

Исследование сосредоточено на случайных лесах — ансамблевом методе, который строит множество деревьев решений на слегка разных подвыборках данных и затем объединяет их голоса. Случайные леса хорошо работают с комплексными данными и помогают выявлять наиболее важные признаки. Тем не менее при обучении на сильно несбалансированных данных даже большие леса могут склоняться в пользу класса большинства. В предлагаемом методе авторы сначала восстанавливают баланс данных с помощью under-sampling, over-sampling или их гибрида. Затем они выращивают множество деревьев по обычной процедуре случайного леса, но с важным дополнением: вместо того чтобы сохранять каждое дерево, они оценивают каждое по отложенным (out-of-bag) наблюдениям — точкам данных, которые не использовались при построении данного дерева — и отбрасывают половину деревьев с наихудшими показателями ошибки. Этот шаг обрезки даёт меньший, более избирательный лес, собранный из наиболее надёжных деревьев.

Figure 2
Figure 2.

Тестирование на многочисленных реальных наборах данных

Чтобы оценить работу обрезанного леса, авторы протестировали его на десяти общедоступных наборах данных, отражающих широкий спектр приложений — от медицинских и биологических измерений до фильтрации спама и классификации звуков. Каждый набор содержит два класса, один из которых явно реже другого; наборы различаются по размеру, числу признаков и степени несбалансированности. Новый метод сравнивается с несколькими широко используемыми подходами: k-ближайших соседей, одним деревом решений, стандартным случайным лесом, вариантом Balanced Random Forest и методами опорных векторов. При различных стратегиях выборки обрезанный лес последовательно показывает более низкую ошибку классификации по сравнению с альтернативами на большинстве наборов. Комбинация гибридной выборки и обрезки даёт наилучшие общие результаты и по точности, и по стабильности работы на всех десяти задачах.

Более точные модели, которые тратят меньше ресурсов

Кроме улучшения точности, подход повышает и эффективность. Обрезая менее эффективные деревья, итоговый ансамбль становится компактнее и требует меньше вычислений для обучения и предсказаний, не теряя при этом — а часто и улучшая — способность обнаруживать редкие случаи. Статистические тесты подтверждают, что преимущества перед конкурирующими методами не случайны. Для практиков, сталкивающихся с несбалансированными данными, эта работа показывает: аккуратное выравнивание обучающего набора, а затем обрезка случайного леса на основе out-of-bag показателей может дать модели, одновременно более точные и более эффективные. Проще говоря, метод помогает алгоритмам уделять должное внимание редким, но важным сигналам, скрывающимся в море обычных примеров.

Цитирование: Faiz, N., Iftikhar, S., Jan, S. et al. Pruning tree forest and re-sampling for class imbalanced problem. Sci Rep 16, 8087 (2026). https://doi.org/10.1038/s41598-026-38320-1

Ключевые слова: несбалансированность классов, случайный лес, повторная выборка, машинное обучение, ансамблевые методы