Clear Sky Science · es

Método nuevo basado en simulación para la varianza poblacional usando información auxiliar

· Volver al índice

Por qué importan medidas más inteligentes de dispersión

Cuando gobiernos, empresas o investigadores realizan encuestas, no solo les interesa el “promedio” de ingresos, rendimiento o puntuación en pruebas. También necesitan saber cuánto varían esos valores entre personas, explotaciones o centros educativos. Esta dispersión, llamada varianza, nos indica cuán desiguales son los ingresos, cuán arriesgado puede ser un cultivo o cuán desiguales son los resultados de aprendizaje. El artículo presenta una nueva forma de estimar esta dispersión con mayor precisión aprovechando de manera inteligente piezas adicionales de información que las encuestas suelen recolectar pero rara vez explotar por completo.

Ver más que solo la cifra principal

La mayoría de los informes de encuestas se centran en promedios, pero muchas decisiones críticas dependen de cuánto se dispersan los datos. Estimar bien esa dispersión resulta sorprendentemente difícil, sobre todo cuando solo se puede muestrear un número reducido de individuos o unidades. La fórmula tradicional para la varianza funciona en teoría, pero sus resultados pueden oscilar mucho de una muestra a otra, especialmente cuando la población es diversa. Los autores sostienen que esta inestabilidad puede inducir a error a los planificadores que intentan dimensionar encuestas, fijar intervalos de confianza o comparar grupos con presupuestos ajustados.

Obtener ayuda de pistas adicionales

Las encuestas modernas suelen registrar más de una variable: por ejemplo, el gasto alimentario de un hogar viene acompañado de su ingreso, y el número de docentes de una escuela viene acompañado de su matrícula. Estas variables secundarias, conocidas en estadística como información auxiliar, a menudo se correlacionan con la magnitud principal de interés. Si ingresos y gastos en alimentación se mueven juntos, entonces saber más sobre los ingresos puede afinar nuestra estimación de cómo varían los gastos alimentarios. Trabajos previos ya habían utilizado esas pistas para mejorar estimaciones de promedios, pero los intentos por hacer lo mismo para la varianza fueron más limitados y a menudo se apoyaron en suposiciones lineales simples que fallan en datos realistas y complejos.

Figure 1
Figure 1.

Un nuevo estimador construido y probado por simulación

Los autores proponen un nuevo estimador de la varianza poblacional que combina directamente los datos principales de la encuesta con una variable auxiliar de forma más flexible. Matemáticamente, diseñan una fórmula que mezcla la varianza muestral habitual con ajustes suaves basados en el comportamiento de la variable auxiliar en la muestra y en la población completa. Para evaluar qué tan bien funciona esta receta, primero calculan su error esperado usando teoría estándar. Luego van más allá de los resultados teóricos ejecutando grandes simulaciones por ordenador que imitan muchos mundos distintos: poblaciones con vínculos muy fuertes, moderados o incluso negativos entre la variable principal y la auxiliar, y con diferentes patrones de dispersión y forma.

Poniendo el método a prueba en datos reales y simulados

Para ver si el nuevo estimador ayuda en la práctica, los autores lo prueban en tres conjuntos de datos reales: gastos familiares en alimentación emparejados con ingresos, número de docentes emparejados con matrícula de estudiantes, y recuentos de insectos emparejados con la exposición a paquetes tratados. Comparan su método con una serie de alternativas bien conocidas que también intentan usar información auxiliar. En los tres ejemplos, el nuevo estimador ofrece de forma consistente un menor error cuadrático medio, lo que significa que sus estimaciones se mantienen más cerca de la verdad. Las mejoras son especialmente llamativas cuando las variables principal y auxiliar se mueven estrechamente. Los estudios de simulación cuentan una historia similar. En poblaciones artificiales creadas a partir de modelos normales bivariantes, el estimador propuesto muestra repetidamente tanto menor error como mayor eficiencia relativa que los métodos estándar y competidores, incluso cuando las relaciones son complejas o las correlaciones solo son moderadas.

Figure 2
Figure 2.

Qué implica esto para las encuestas del mundo real

Para lectores no especializados en estadística, el mensaje clave es que los diseñadores de encuestas no tienen que aceptar medidas ruidosas de la dispersión como una molestia inevitable. Al alimentar información adicional ya disponible en una fórmula cuidadosamente construida y probarla exhaustivamente con simulaciones, los autores demuestran que se pueden obtener estimaciones de variabilidad más estables y fiables sin aumentar el tamaño de la muestra ni el coste. Mejores estimaciones de la varianza se traducen en mejor planificación de futuras encuestas y en conclusiones más sólidas en ámbitos como la agricultura, la economía y las ciencias sociales. El trabajo también abre la puerta a extender esta idea a planes de muestreo más complejos y a conjuntos más ricos de información auxiliar, prometiendo herramientas aún más precisas para entender cuán desiguales o inciertos son realmente los mundos que medimos.

Cita: Ahmadini, A.A.H., Semary, H.E., Ahmad, S. et al. Simulation based new method for population variance using auxiliary information. Sci Rep 16, 11647 (2026). https://doi.org/10.1038/s41598-026-40161-x

Palabras clave: muestreo por encuesta, estimación de la varianza, información auxiliar, eficiencia estadística, estudio por simulación