Clear Sky Science · es
Estimación de la razón de odds a partir de las puntuaciones de salida de modelos de aprendizaje automático: posibilidades y limitaciones
Por qué esto importa para la salud y la IA
Médicos e investigadores en salud pública recurren cada vez más a la inteligencia artificial para descubrir cómo factores ambientales, como la temperatura o la contaminación del aire, afectan a nuestra salud. Pero mientras las herramientas modernas de aprendizaje automático son poderosas para predecir quién puede enfermarse, con frecuencia no responden a una cuestión más básica que preocupa a clínicos y responsables de políticas: ¿en qué medida una exposición concreta aumenta o disminuye el riesgo? Este estudio aborda esa brecha mostrando cómo traducir la salida opaca de modelos populares de aprendizaje automático en las familiares razones de odds que sustentan gran parte de la toma de decisiones médicas y epidemiológicas.

De puntuaciones de caja negra a riesgo comprensible
En la epidemiología tradicional, un método de referencia llamado regresión logística vincula una exposición (por ejemplo, clima frío) y un resultado de salud (como ingreso hospitalario) controlando otras variables como la edad o la contaminación. Su principal fortaleza es la interpretabilidad: proporciona directamente una razón de odds, que nos dice cuántas veces mayores (o menores) son las probabilidades de enfermedad en un grupo frente a otro. Los métodos modernos de aprendizaje automático, como los bosques aleatorios y el boosting de gradiente, pueden captar patrones mucho más complejos en los datos, pero por lo general devuelven puntuaciones sin un significado directo para el riesgo, lo que dificulta informar los resultados en un lenguaje que los clínicos confían. Los autores se propusieron conectar estos dos mundos.
Nuevas formas de leer el riesgo desde modelos de aprendizaje automático
Los investigadores propusieron diez maneras diferentes de recuperar razones de odds a partir de las puntuaciones producidas por clasificadores de aprendizaje automático. Ocho de estos estimadores “híbridos” parten de las puntuaciones crudas o calibradas del modelo —números entre cero y uno que reflejan la probabilidad de que cada persona tenga el resultado— y luego multiplican un resumen simple de esas puntuaciones por un factor de ajuste derivado de un modelo convencional de regresión logística. Este factor tiene en cuenta diferencias en edad, estación y otras variables de fondo entre los grupos expuestos y no expuestos. Dos estimadores adicionales se basan en funciones de dependencia parcial, una herramienta que pregunta, en efecto, “¿qué predeciría el modelo si todas las personas tuvieran el nivel de exposición A frente al nivel B, manteniendo todo lo demás tal como se observó?” Al comparar estas predicciones, los autores obtienen una razón de odds basada en el modelo que refleja la visión del conjunto de datos por parte del modelo de aprendizaje automático.
Probando los métodos en preguntas reales de salud
Para evaluar qué tan bien funcionan estas ideas, el equipo las aplicó a tres modelos —regresión logística, bosque aleatorio y boosting de gradiente— en dos grandes conjuntos de datos epidemiológicos de Israel. Uno siguió a adultos mayores ingresados en el hospital por problemas respiratorios o cardiovasculares, centrándose en si temperaturas excepcionalmente bajas aumentaban la probabilidad de ingreso. El otro rastreó a más de 160.000 lactantes para examinar si temperaturas prenatales más altas se asociaban con sobrepeso a los dos años. Para cada combinación de conjunto de datos y modelo, calcularon diez estimaciones de razón de odds y sus intervalos de incertidumbre, y compararon los resultados con los de la regresión logística estándar, tratándola como un punto de referencia práctico.

Qué herramientas de aprendizaje automático se comportaron mejor
Un paso clave en el estudio fue la “calibración”: reajustar las puntuaciones crudas de los modelos de aprendizaje automático para que, por ejemplo, entre las personas asignadas a un riesgo del 20 %, aproximadamente una de cada cinco realmente tenga el evento. Los autores probaron tres métodos de calibración comunes y hallaron que una técnica simple llamada regresión isotónica a menudo acercaba las puntuaciones de bosque aleatorio y de boosting de gradiente a probabilidades bien comportadas. Cuando estas puntuaciones calibradas se introdujeron en sus estimadores de razón de odds, emergió un patrón importante: las razones de odds derivadas del boosting de gradiente tendían a alinearse bien con las de la regresión logística, con alrededor del 87 % de las estimaciones dentro del intervalo de confianza del 95 % del modelo logístico y con frecuencia produciendo intervalos de incertidumbre algo más estrechos. En contraste, los bosques aleatorios mostraron un comportamiento errático: muchas predicciones colapsaron a 0 o 1, lo que hizo que varias estimaciones de razón de odds fueran inestables o engañosas, incluso tras la calibración.
Qué significa esto para el uso de la IA en salud pública
El estudio demuestra que es posible aprovechar el poder predictivo de los modelos modernos de aprendizaje automático sin sacrificar la interpretabilidad, al menos bajo condiciones comunes en la investigación de salud ambiental. Cuando se combinan con una calibración cuidadosa y los estimadores propuestos, los modelos de boosting de gradiente pueden ofrecer razones de odds comparables y a veces más precisas que las de la regresión logística clásica. Sin embargo, no todos los algoritmos de aprendizaje automático son igualmente adecuados para esta tarea: los bosques aleatorios, en particular, pueden requerir precaución adicional o estrategias alternativas cuando se usan para estimar tamaños de efecto. Para responsables de políticas y clínicos, la conclusión principal es que los métodos avanzados de IA no tienen por qué seguir siendo cajas negras: si se usan con criterio, pueden proporcionar medidas de riesgo claras y familiares que apoyen decisiones en el mundo real.
Cita: Nirel, R., Bauman, N., Morin, E. et al. Estimating the odds ratio from the output scores of machine learning models: possibilities and limitations. Sci Rep 16, 8922 (2026). https://doi.org/10.1038/s41598-026-38150-1
Palabras clave: razón de odds, aprendizaje automático, epidemiología, estimación de riesgo, temperatura y salud