Clear Sky Science · ru
Эффективная логарифмическая оценка при стратифицированной случайной выборке с использованием одной вспомогательной переменной
Почему важно умнее отбирать пробу
Когда правительства, учёные или компании проводят опросы, они редко измеряют каждого человека или объект. Вместо этого берут выборки и с помощью статистики оценивают общие средние значения — например, средний урожай, количество осадков или охват школами. Небольшие улучшения в методах оценки этих средних могут сэкономить деньги, сократить полевые работы и при этом дать более надёжные показатели. В этой статье предложен новый способ извлечь большую точность из тех же данных опроса, используя хитрый математический приём на основе логарифмов.

Разделение совокупности на значимые группы
Во многих крупных опросах совокупность предварительно делят на группы, или страты. Например, фермы можно группировать по регионам, школы — по округам, метеостанции — по климатическим зонам. В каждой группе берут небольшую выборку, а затем эти части комбинируют для оценки общего среднего. Такой подход, называемый стратифицированной выборкой, особенно эффективен, когда внутри каждой группы наблюдается относительная однородность, но группы заметно различаются между собой. Авторы сосредотачиваются на этой распространённой схеме и спрашивают: раз мы уже отбираем по группам, можно ли использовать дополнительную информацию внутри каждой страты, чтобы ещё больше уточнить оценки?
Использование полезной сопутствующей переменной
Во многих реальных исследованиях одну переменную измерить легче, чем другую. Например, посчитать число деревьев в саду может быть проще, чем измерить суммарный урожай яблок, или зафиксировать количество школ в районе — чем пересчитать всех учащихся. Когда такая легко измеримая величина тесно связана с основной переменной интереса, статистики называют её вспомогательной переменной. Существующие методы, такие как оцениватели по отношению (ratio) и регрессионные оцениватели, уже используют эту сопутствующую переменную для улучшения оценок основной средней. Однако традиционные инструменты часто предполагают довольно простые, почти линейные зависимости и могут работать хуже, если данные более неравномерны или ведут себя нелинейно.
Новый подход: логарифмический оцениватель
Центральный вклад этого исследования — новый оцениватель, который сочетает стратифицированную выборку с логарифмической трансформацией вспомогательной переменной. Вместо того чтобы работать напрямую с необработанными средними по вспомогательной переменной в каждой группе, метод сначала преобразует их с помощью натурального логарифма, а затем комбинирует информацию. Такая трансформация может смягчать большие различия между группами и лучше учитывать изогнутые или неравномерные зависимости между основной и вспомогательной переменными. Авторы выводят математические выражения, описывающие возможную смещённость нового оценивателя и его разброс, а также определяют условия, при которых он должен превосходить несколько известных альтернатив.

Тестирование на реальных и смоделированных данных
Чтобы проверить поведение нового оценивателя на практике, авторы применили его к трём реальным наборам данных: урожай яблок в связке с числом деревьев, охват обучением в связке с количеством школ и количество влажных дней в связке с часами солнечного сияния. В каждом случае популяция была разделена на страты, такие как регионы или климатические зоны. Они также провели компьютерные симуляции на искусственных популяциях, где связь между основной и вспомогательной переменной была сильной и контролируемой. При разных размерах выборок и структурах популяции новый оцениватель стабильно демонстрировал меньшее отклонение и более высокий относительный процент эффективности, то есть давал оценки, которые в среднем ближе к истинному среднему по совокупности, чем конкурирующие методы при использовании тех же данных.
Что это значит для прикладных опросов
Для неспециалистов ключевая мысль такова: логарифмический оцениватель предлагает способ получать более точные средние из опросов без сбора дополнительной информации. Когда существует сильная связь между трудноизмеримой величиной и более доступной, и когда популяция естественно разбита на группы, этот метод может существенно снизить неопределённость итоговых оценок. Это делает его привлекательным для применения в сельском хозяйстве и мониторинге окружающей среды, в области статистики образования и контроле качества на предприятиях, где более точные данные помогают принимать лучшие решения.
Цитирование: Shakoor, F., Asif, M., Atif, M. et al. An efficient logarithmic estimator in stratified random sampling using single auxiliary variable. Sci Rep 16, 11126 (2026). https://doi.org/10.1038/s41598-026-41448-9
Ключевые слова: стратифицированная выборка, точность опроса, вспомогательные данные, статистическая оценка, логарифмические методы