Clear Sky Science · es

Aprovechar el procesamiento del lenguaje natural y el aprendizaje automático para identificar enfermedades crónicas a partir de historias clínicas electrónicas de atención primaria

· Volver al índice

Por qué las notas de su médico importan más de lo que cree

Cuando visita a su médico de familia, cada tos, molestia y preocupación se registra en su historia clínica electrónica. Gran parte de ese detalle vive en notas de texto libre en lugar de casillas ordenadas. Este estudio muestra que esas notas narrativas, combinadas con técnicas informáticas modernas, pueden ayudar a los médicos a detectar enfermedades crónicas como artritis, enfermedad renal, diabetes, hipertensión y problemas respiratorios con mayor precisión, sobre todo cuando estos problemas no están claramente codificados en otras partes del historial.

Pistas ocultas dentro de los registros clínicos cotidianos

Las historias clínicas electrónicas en atención primaria contienen dos tipos de información muy diferentes. Hay elementos estructurados, como códigos de facturación, listas de medicamentos y resultados de laboratorio, y hay notas no estructuradas, donde los clínicos describen síntomas, antecedentes y su razonamiento en lenguaje corriente. En Canadá, los códigos de facturación a menudo son incompletos y se usan principalmente para el pago más que para un diagnóstico preciso, por lo que muchos problemas de salud aparecen con mayor claridad en las notas que en las casillas. Los investigadores se propusieron ver si extraer información de ambos tipos podría identificar mejor cinco condiciones crónicas comunes en pacientes de 60 años o más que acudieron a una sola clínica de medicina familiar en Alberta.

Figure 1
Figure 1.

Enseñar a los ordenadores a leer el lenguaje del médico

Para aprovechar el texto rico pero desordenado de las notas clínicas, el equipo utilizó procesamiento del lenguaje natural, un conjunto de herramientas que ayuda a los ordenadores a trabajar con el lenguaje humano. Limpiaron las notas eliminando símbolos sueltos, estandarizando palabras, expandiendo abreviaturas y reduciendo palabras relacionadas a raíces comunes. También construyeron reglas simples para reconocer cuando una nota decía que un paciente no tenía una condición, por ejemplo, frases como “sin evidencia de” o “se descartó”, para que el ordenador no tratara erróneamente estos casos como positivos. Los clínicos del equipo elaboraron listas de términos y frases significativas para cada condición, ayudando a los algoritmos a centrarse en ideas médicas relevantes en lugar de cada palabra suelta.

Encontrar temas y aprender de patrones

A continuación, los investigadores cuantificaron el texto para poder introducirlo en modelos de aprendizaje automático. Contaron con qué frecuencia aparecía cada palabra o par de palabras en las notas de cada paciente, pero también restaron peso a las palabras muy comunes y destacaron aquellas especialmente distintivas de una condición concreta. Usando un método llamado modelado de temas, comprobaron que los grupos de palabras más frecuentes en las notas coincidían con las condiciones de interés—por ejemplo, términos vinculados a la diabetes o la hipertensión. Este paso sirvió como control de realidad, confirmando que los temas identificados por el ordenador concordaban con el conocimiento clínico antes de construir los modelos de predicción.

Permitir que los algoritmos señalen quién probablemente está enfermo

El núcleo del estudio fue entrenar tres tipos de modelos de aprendizaje automático para decidir si cada paciente probablemente tenía cada una de las cinco enfermedades crónicas. Un modelo funcionó como una calculadora de riesgo refinada, otro trazó una frontera entre casos sanos y enfermos, y un tercero se asemejó a una red simple inspirada en el cerebro. Los investigadores primero entrenaron estos modelos usando solo las partes estructuradas del registro y luego los reentrenaron usando tanto los datos estructurados como las características de texto procesadas de las notas. También ajustaron el hecho de que algunas enfermedades eran menos comunes en la muestra reequilibrando cuidadosamente los datos para que las condiciones raras no pasaran desapercibidas por los algoritmos.

Ganancias claras al usar la historia completa

Cuando se añadieron las notas no estructuradas, los modelos mejoraron notablemente para distinguir quién tenía y quién no tenía una condición, especialmente en problemas que suelen estar poco codificados en los datos de facturación. Para la artritis y las enfermedades respiratorias, las métricas de separación entre pacientes enfermos y sanos y la fiabilidad al detectar casos reales mejoraron de forma marcada. Por ejemplo, el rendimiento para detectar problemas respiratorios y artritis pasó de aceptable a sólido cuando se incluyeron las notas. Las ganancias para diabetes e hipertensión fueron menores porque estas condiciones ya estaban bien registradas en campos estructurados. Curiosamente, los modelos más simples a menudo rindieron igual o mejor que la red neuronal más compleja, lo que sugiere que el aprendizaje profundo sofisticado no siempre es necesario para este tipo de trabajo a nivel de clínica.

Figure 2
Figure 2.

Qué significa esto para su atención futura

En conjunto, el estudio muestra que prestar atención a las partes narrativas de las historias clínicas—no solo a los códigos y a los valores de laboratorio—puede afinar significativamente nuestra capacidad para identificar pacientes con enfermedades crónicas. Al convertir notas de texto libre en señales legibles por máquina y combinarlas con los datos estructurados existentes, los sistemas de salud podrían identificar a pacientes en riesgo antes, enfocar el seguimiento donde más se necesita y extender este enfoque a otras condiciones que principalmente aparecen en la historia escrita de la visita en lugar de en los menús desplegables.

Cita: Zhang, N., Abbasi, M., Khera, S. et al. Leveraging natural language processing and machine learning to identify chronic conditions from primary care electronic medical records. Sci Rep 16, 8441 (2026). https://doi.org/10.1038/s41598-026-38594-5

Palabras clave: historias clínicas electrónicas, detección de enfermedades crónicas, procesamiento del lenguaje natural, aprendizaje automático en salud, datos de atención primaria