Clear Sky Science · es

Algunos nuevos modelos cuantitativos de respuesta aleatorizada usando enmascaramiento opcional y parcial para datos sensibles

· Volver al índice

Por qué es tan difícil formular preguntas comprometidas

Muchas de las preguntas sociales más importantes —sobre consumo de drogas, ingresos ocultos, evasión fiscal o conductas ilegales— son precisamente las que la gente menos quiere contestar con sinceridad. Si temen juicios o sanciones, pueden mentir o negarse a responder, y eso sesga los resultados de las encuestas. Este artículo presenta nuevas formas de diseñar encuestas para que las personas puedan ocultar de forma segura sus respuestas personales a la vez que permiten a los investigadores medir, con alta precisión, cuán frecuentes son realmente estos comportamientos sensibles en la población.

Cómo el azar puede proteger tu privacidad

Desde los años sesenta, los estadísticos usan un truco ingenioso conocido como respuesta aleatorizada. En lugar de responder directamente a una pregunta sensible, la persona usa un dispositivo aleatorio —como lanzar una moneda o hacer girar una ruleta— para decidir si dice la verdad o da una respuesta disfrazada. Como solo el encuestado ve el resultado del dispositivo, ningún tercero puede saber si una respuesta concreta es genuina. Sin embargo, conociendo las reglas aleatorias, los investigadores aún pueden reconstruir promedios precisos para todo el grupo. Trabajos posteriores extendieron esta idea de preguntas de sí/no a preguntas numéricas, por ejemplo cuántas veces alguien infringió la ley o cuánto ingreso no declarado posee.

Figure 1
Figure 1.

Permitir que la gente elija cuánto ocultar

Los métodos tradicionales de privacidad tratan a todos por igual: la respuesta de cada encuestado se enmascara de la misma manera, aunque algunas personas no estén especialmente preocupadas por la pregunta. Ese enfoque de «una talla para todos» puede desperdiciar información y aun así no lograr que las personas cautelosas se sientan seguras. Para corregirlo, los investigadores desarrollaron modelos opcionales. En estos, cada persona puede bien reportar su número verdadero o bien enviar una versión enmascarada, según su nivel de comodidad. El nuevo estudio se basa en esta idea para datos numéricos creando cuatro modelos que mezclan respuestas directas con distintos tipos de enmascaramiento —a veces añadiendo ruido aleatorio, otras multiplicando por un factor aleatorio, y en ocasiones usando varias etapas de aleatorización.

Cuatro nuevas formas de equilibrar seguridad y precisión

Los autores presentan cuatro modelos relacionados, denominados M1 hasta M4. Todos buscan estimar el nivel medio de una cifra sensible en la población sin sesgo, es decir, que en promedio recuperen el valor verdadero. M1 amplía un método existente añadiendo una segunda etapa de aleatorización, que incrementa la incertidumbre sobre la respuesta de una persona concreta mientras mantiene el cálculo general sencillo. M2 combina un primer paso en el que algunas personas responden directamente con un segundo paso que enmascara las respuestas ya sea por multiplicación o por adición de ruido aleatorio. M3 y M4 generalizan además diseños previos con múltiples opciones, ofreciendo a los encuestados varias formas posibles enmascaradas de su valor real. Estas capas adicionales de elección y aleatoriedad crean más «cobertura» para los individuos al tiempo que permiten a los estadísticos desenredar el patrón global.

Midiendo tanto la privacidad como la precisión

Puesto que un mayor enmascaramiento puede proteger a las personas pero también difuminar los datos, la cuestión crucial es cómo juzgar el equilibrio entre privacidad y precisión. Los autores comparan sus cuatro modelos con siete métodos anteriores bien conocidos usando varios criterios. Analizan la eficiencia estadística, que refleja cuán variable es la estimación final, y medidas de privacidad, que capturan cuánto se alejan los valores reportados del número verdadero de una persona. También emplean una puntuación combinada —llamada medida phi— que permite al analista elegir cuánto peso dar a la privacidad frente a la eficiencia. En una amplia gama de escenarios, los nuevos modelos, especialmente M1 y M4, muestran puntuaciones combinadas consistentemente mejores que los métodos anteriores.

Figure 2
Figure 2.

Elegir la herramienta adecuada para un tema sensible

El estudio no sostiene que un único modelo sea el mejor para todas las situaciones. En cambio, ofrece pautas claras sobre cuándo usar cada enfoque. Cuando la protección de la privacidad individual es la máxima prioridad y los investigadores están dispuestos a aceptar algo más de ruido estadístico, se recomiendan los modelos M1 a M3. Ofrecen garantías sólidas de que no se puede adivinar fácilmente la respuesta verdadera de una sola persona. Cuando los organizadores de la encuesta se preocupan más por exprimir la mayor precisión posible a partir de datos limitados —por ejemplo, en estudios pequeños o costosos— el modelo M4 tiende a funcionar mejor. En general, el mensaje para no especialistas es tranquilizador: diseñando cuidadosamente las reglas aleatorias de una encuesta, es posible formular preguntas numéricas muy sensibles de una manera que sea tanto éticamente más segura para los participantes como científicamente más fiable.

Cita: Iqbal, S., Hussain, Z. & Omer, T. Some new quantitative randomized response models using optional and partial scrambling for sensitive data. Sci Rep 16, 7734 (2026). https://doi.org/10.1038/s41598-026-40714-0

Palabras clave: encuestas que preservan la privacidad, respuesta aleatorizada, datos sensibles, metodología de encuestas, confidencialidad estadística