Clear Sky Science · es

Integración de la conciencia de equidad en modelos de procesamiento del lenguaje clínico

2026-02-24 · Volver al índice

Por qué importa en la atención sanitaria real

La medicina moderna depende cada vez más de la inteligencia artificial construida a partir de historias clínicas electrónicas. Sin embargo, un dato básico sobre los pacientes—su raza y etnia—a menudo falta o se registra de forma inconsistente. Esa carencia dificulta descubrir y abordar las desigualdades en salud. Este artículo explora si los ordenadores pueden recuperar de forma fiable la información sobre raza a partir de las notas médicas, evitando al mismo tiempo un trato injusto hacia distintos grupos, y qué revela eso sobre el sesgo tanto en los registros médicos como en las herramientas de IA.

Huecos ocultos en los registros médicos

Muchos hospitales y centros dejan en blanco los campos de raza y etnia o usan categorías obsoletas. Estas entradas faltantes no son solo errores administrativos; pueden distorsionar las estadísticas sobre quién enferma, quién recibe qué atención y quién se beneficia de nuevos tratamientos. Mientras tanto, las partes de texto libre de los registros—historia social y notas sobre factores de riesgo—a menudo mencionan de pasada el origen del paciente. Los autores se preguntaron si esas pistas dispersas en texto no estructurado podrían convertirse en un registro estructurado y coherente de la raza, proporcionando una imagen más clara de las desigualdades en salud y en el uso de la atención sanitaria.

Enseñar a los ordenadores a leer las notas de los médicos

El equipo trabajó con una gran base de datos canadiense de atención primaria que contenía registros de unos 400.000 pacientes y más de 400 clínicas. A partir de ella, extrajeron una muestra representativa de casi 4.000 pacientes adultos y etiquetaron cuidadosamente las frases que se referían claramente a la raza o etnia, usando nueve categorías como Negra, Esteasiática, Latinoamericana e Indígena, además de una categoría “ausente” cuando no aparecía ninguna mención. Dado que la mayoría de las notas nunca mencionan la raza, emplearon una estrategia de “aprendizaje activo” en la que un modelo inicial de IA señalaba las notas sobre las que tenía más incertidumbre, para que los anotadores humanos se centraran en los casos con más probabilidad de contener información sobre la raza.

Construir modelos de lenguaje más justos

Los investigadores compararon varios modelos de lenguaje basados en transformadores populares—como BERT y sus variantes clínicas—con una red neuronal convolucional jerárquica construida a medida. A diferencia de los modelos estándar que tratan una nota como una larga secuencia de palabras, el modelo jerárquico imita cómo escriben los clínicos: procesa palabras dentro de frases, luego frases dentro de una nota y, finalmente, las notas del paciente a lo largo del tiempo. El equipo también experimentó con entrenamiento “con conciencia de equidad”, añadiendo términos a la función de pérdida que penalizan grandes diferencias en las tasas de error entre grupos raciales y ajustando cuánto “importan” los errores para los grupos subrepresentados.

Qué funcionó y qué no

El modelo jerárquico superó a todos los transformadores en conjunto, logrando una precisión muy alta y un rendimiento más equilibrado entre categorías raciales, incluso antes de aplicar ajustes de equidad. En contraste, varios transformadores funcionaron bien para pacientes blancos pero fallaron en muchos casos entre grupos más pequeños, a veces prediciendo solo la categoría mayoritaria. Añadir restricciones de equidad ayudó sustancialmente a algunos modelos, especialmente a BERT, haciendo sus predicciones más precisas y más equitativamente distribuidas entre los grupos. Pero las mismas restricciones perjudicaron a otros modelos, incluido el jerárquico, y en un transformador clínico hicieron que el sistema colapsara de nuevo hacia predicciones mayoritarias. El estudio también encontró diferencias persistentes en las intersecciones de raza, sexo y edad, siendo las categorías Indígena, de herencia mixta y algunos subgrupos asiáticos y latinoamericanos las más difíciles de clasificar.

Qué revela esto sobre el sesgo

Puesto que el modelo de mejor rendimiento pudo detectar de manera fiable la información de raza cuando estaba presente, los autores sostienen que el problema principal no es la falta de señal en las notas sino cómo los modelos y conjuntos de datos interactúan con desigualdades estructurales de larga data. El sesgo se introdujo por la subrepresentación de ciertos grupos, por patrones en cómo los clínicos describen a distintos pacientes e incluso por el proceso de aprendizaje activo que eligió qué notas etiquetar. El entrenamiento con conciencia de equidad redujo algunas disparidades pero no pudo superar completamente estos problemas de origen, y su impacto dependió en gran medida del diseño del modelo.

Mensaje principal para pacientes y clínicos

Este trabajo muestra que es técnicamente posible construir modelos de lenguaje que recuperen la información sobre la raza a partir del texto clínico con alta precisión y mayor equidad, especialmente cuando las arquitecturas respetan la estructura por capas de las notas médicas. Sin embargo, también deja claro que los algoritmos por sí solos no pueden corregir las desigualdades que se originan en las prácticas de documentación y en el propio sistema sanitario. Para que la IA apoye una atención más justa, la equidad debe incorporarse en cada etapa—desde cómo se recopilan y muestrean los datos hasta cómo se entrenan, auditan y usan los modelos—mientras las instituciones sanitarias mejoran la forma en que registran y actúan sobre la información social y demográfica.

Cita: Abulibdeh, R., Lin, Y., Ahmadi, S. et al. Integration of fairness-awareness into clinical language processing models. Commun Med 6, 178 (2026). https://doi.org/10.1038/s43856-026-01433-9

Palabras clave: procesamiento del lenguaje natural clínico, equidad algorítmica, historias clínicas electrónicas, equidad en salud, datos de raza y etnia