Clear Sky Science · es
Abordar el equilibrio entre equidad y rendimiento en la predicción del grado de glioma usando técnicas de mitigación de sesgo
Por qué importa tratar los tumores con equidad
Cuando los médicos usan inteligencia artificial para ayudar a diagnosticar tumores cerebrales, podríamos suponer que el ordenador es neutral. Pero si los datos empleados para entrenar estas herramientas reflejan desigualdades sanitarias existentes, el software puede tratar silenciosamente a algunos pacientes con menos equidad que a otros. Este estudio examina cómo los sistemas de aprendizaje automático que predicen la gravedad de los gliomas —un tipo común de tumor cerebral en adultos— pueden favorecer de forma no intencionada a ciertos grupos raciales o de género, y pone a prueba maneras prácticas de hacer esas predicciones más justas sin sacrificar demasiada precisión. 
Tumores cerebrales y asistentes computacionales
Los gliomas son tumores cerebrales que abarcan desde formas de crecimiento más lento y más tratables hasta cánceres muy agresivos con mal pronóstico. Calificar correctamente estos tumores es vital, porque guía la cirugía, la radiación y el tratamiento farmacológico. Los investigadores trabajaron con un conjunto de datos público de 839 adultos con glioma de bajo grado o con glioblastoma agresivo. Para cada paciente disponían de edad, sexo, raza y 20 marcadores genéticos comunes en el tumor. Entrenaron tres modelos de predicción estándar —regresión logística, bosques aleatorios y gradient boosting— para distinguir entre los dos grados tumorales usando estas características, y luego evaluaron tanto la precisión global de los modelos como cómo trataban a los distintos grupos de pacientes.
Buscando desequilibrios ocultos
Para sondear la equidad, el equipo se centró en dos rasgos “protegidos”: la raza (blancos frente a no blancos) y el género (hombres frente a mujeres). El propio conjunto de datos estaba sesgado: más del 90% de los pacientes eran blancos, y había claramente más hombres que mujeres. Los autores usaron medidas de equidad a nivel de grupo que comparan con qué frecuencia distintos grupos reciben una predicción correcta de “alto grado” y con qué frecuencia el modelo comete errores para cada grupo. Los tres modelos fueron bastante precisos en conjunto, con la regresión logística rindiendo mejor. Pero bajo ese éxito, las comprobaciones de equidad revelaron que los pacientes no blancos tenían en general peores resultados que los pacientes blancos, especialmente al identificar correctamente los tumores menos agresivos. En contraste, el rendimiento entre hombres y mujeres estuvo mucho más equilibrado, con diferencias pequeñas entre géneros.
Intentando corregir el sesgo
Los investigadores se preguntaron si podían mejorar la equidad sin debilitar seriamente la utilidad médica del modelo. Eligieron la regresión logística como modelo base, ya que era tanto el más preciso como el más equitativo de los tres. Probaron dos estrategias comunes de dessesgo. Un enfoque de “preprocesamiento” llamado reponderación dio mayor importancia a los pacientes subrepresentados durante el entrenamiento, para que el modelo prestara más atención a ellos. Un enfoque de “posprocesamiento” llamado equalized odds mantuvo el modelo entrenado pero ajustó sus salidas para que las tasas de error se volvieran más similares entre grupos. 
Qué cambió cuando se ajustó el modelo
Para el género, ambas estrategias generalmente ayudaron: la calidad de la predicción para las mujeres mejoró y las diferencias entre hombres y mujeres se redujeron en gran medida. Para la raza, donde el desequilibrio en los datos era mucho más fuerte, el panorama fue más complicado. La reponderación a veces tuvo efectos contraproducentes, empeorando ligeramente el rendimiento para los pacientes no blancos e incluso aumentando la inequidad según algunas medidas. En contraste, el método de posprocesamiento redujo sustancialmente las brechas raciales en las tasas de error manteniendo alta la precisión global del modelo, aunque disminuyó algo el rendimiento para el grupo mayoritario. Los autores también mostraron que las cifras de equidad para el grupo no blanco, mucho más pequeño, son estadísticamente inestables: cambiar la predicción de una sola persona puede desplazar de forma notable las puntuaciones de equidad, por lo que esos resultados deben interpretarse con cautela.
Qué significa esto para pacientes y médicos
El estudio concluye que no existe una solución gratuita: mejorar la equidad en la IA médica a menudo implica compromisos en el rendimiento, y la mejor solución depende de cuán sesgados estén los datos y de qué objetivo de equidad se priorice. En este ejemplo de tumor cerebral, ajustar las salidas del modelo tras el entrenamiento fue la manera más práctica de hacer que las recomendaciones de tratamiento fueran más equitativas entre raza y género, preservando al mismo tiempo una sólida capacidad predictiva. El trabajo subraya que las comprobaciones de equidad deberían ser rutinarias al desplegar IA en salud, especialmente para afecciones graves como el glioma, y que existen métodos para hacer estas herramientas más justas, pero deben elegirse e interpretarse con cuidado.
Cita: Sánchez-Marqués, R., García, V. & Sánchez, J.S. Addressing the balance between fairness and performance in glioma grade prediction using bias mitigation techniques. Sci Rep 16, 9785 (2026). https://doi.org/10.1038/s41598-026-40555-x
Palabras clave: grado de glioma, equidad en IA médica, sesgo algorítmico, tumores cerebrales, mitigación de sesgo