Clear Sky Science · es

Precisión diagnóstica de modelos multimodales de lenguaje extenso para diferenciar convulsiones epilépticas de convulsiones funcionales en vídeos grabados con smartphones

2026-04-07 · Volver al índice

Por qué el vídeo de tu teléfono podría ayudar a diagnosticar una convulsión

Cuando alguien se derrumba de repente o comienza a convulsionar, los presentes suelen hacer lo mismo: sacar un smartphone y grabar. Estos vídeos pueden aportar pistas que salvan vidas, ayudando a los médicos a decidir si el episodio fue una convulsión epiléptica o un fenómeno similar llamado convulsión funcional. Pero hay pocos neurólogos expertos, y esperar a que un especialista revise los vídeos puede retrasar el tratamiento. Este estudio pregunta si la inteligencia artificial moderna, concretamente modelos multimodales de lenguaje extenso, puede analizar estos clips cotidianos y distinguirlos por sí sola.

Dos tipos de urgencias que se parecen

Las convulsiones epilépticas y las funcionales pueden parecer similares para un ojo inexperto, pero tienen causas y tratamientos muy distintos. Las convulsiones epilépticas surgen de actividad eléctrica anómala en el cerebro y suelen tratarse con fármacos o cirugía. Las convulsiones funcionales, en cambio, no están impulsadas por descargas cerebrales de ese tipo; son episodios reales y angustiantes arraigados en interacciones complejas entre cerebro y mente, y requieren una atención diferente, a menudo con apoyo psicológico. Dado que los episodios son breves y aterradores, las familias tienen dificultades para describirlos con precisión. Las grabaciones realizadas en el momento ofrecen una imagen más fiel, pero su revisión sigue dependiendo del acceso a especialistas en epilepsia cualificados.

Poner a prueba IA de propósito general

Los investigadores de un importante centro de epilepsia recopilaron 24 vídeos de smartphone de 15 adultos cuyos episodios habían sido diagnosticados cuidadosamente mediante monitorización hospitalaria con vídeo‑EEG, el estándar de oro que registra tanto las ondas cerebrales como el comportamiento. Diecinueve clips mostraban convulsiones epilépticas y cinco mostraban convulsiones funcionales. A continuación, introdujeron cada vídeo, sin información médica de contexto, en cuatro versiones de una familia de sistemas de IA de propósito general (Gemini 1.5 Pro, 2.0 Flash, 2.5 Flash y 2.5 Pro). A cada modelo se le planteó una pregunta simple: ¿fue el episodio epiléptico o funcional? La IA también debía indicar cuán segura se sentía en una escala del 1 al 10. El equipo comparó las respuestas de la IA con los diagnósticos hospitalarios y calculó medidas estándar como exactitud, sensibilidad (con qué frecuencia se identificaron correctamente las convulsiones epilépticas) y especificidad (con qué frecuencia se descartaron correctamente las convulsiones funcionales).

Lo que la IA acertó—y falló

Las versiones más recientes de la IA funcionaron mejor que las antiguas, pero ninguna estuvo cerca de reemplazar a un especialista. La exactitud diagnóstica global subió desde aproximadamente un tercio de aciertos en el modelo más antiguo hasta algo más de la mitad en los dos modelos más recientes. El sistema más moderno, Gemini 2.5 Pro, fue el más equilibrado: detectó algo más de la mitad de las convulsiones epilépticas y descartó correctamente la mayoría, aunque no todas, de las convulsiones funcionales. Las versiones anteriores fueron extremadamente cautelosas: casi nunca etiquetaban erróneamente una convulsión funcional, pero pasaban por alto la gran mayoría de las epilépticas. Es importante destacar que una estrategia ingenua de llamar a todos los episodios “epilépticos” habría producido una exactitud cruda superior a la de cualquier modelo; sin embargo, fallaría por completo en diferenciar ambas condiciones, lo que subraya lo desafiante de la tarea.

Por qué los detalles del vídeo importan tanto

El estudio también reveló que la calidad y el encuadre del vídeo influyeron fuertemente en el rendimiento de la IA. Cuando las grabaciones eran nítidas, bien iluminadas y centradas en la parte superior del cuerpo o el rostro, los modelos más recientes acertaban en aproximadamente el 80–90 por ciento de los casos de ese subconjunto. Cuando se mostraba el cuerpo entero desde la distancia o la iluminación era pobre, la exactitud caía drásticamente, a veces hasta casi cero. El tipo de convulsión también marcó la diferencia: las versiones tempranas de la IA fracasaban esencialmente con episodios más sutiles y sin sacudidas, mientras que las versiones posteriores fueron algo más equilibradas entre episodios claramente convulsivos y otros menos dramáticos. Aun así, en todos los modelos las puntuaciones de confianza se mantuvieron altas tanto en respuestas correctas como incorrectas, lo que significa que la IA a menudo estaba “equivocadamente confiada”, un rasgo preocupante si clínicos o pacientes fueran a fiarse de estas valoraciones.

Qué significa esto para pacientes y médicos

Por ahora, el mensaje es claro: la IA de propósito general puede detectar patrones en vídeos de convulsiones y está mejorando lentamente, pero sigue lejos de ser fiable como herramienta diagnóstica autónoma. Los sistemas aún pasan por alto muchas convulsiones epilépticas, tienen dificultades con episodios sutiles y todavía no saben cuándo pueden estar equivocados. Los autores sostienen que las futuras versiones necesitarán entrenamiento con colecciones mucho más grandes de vídeos médicos de alta calidad etiquetados por expertos, mejores formas de expresar incertidumbre e integración más estrecha con los antecedentes del paciente y las grabaciones de ondas cerebrales. En vez de sustituir a los neurólogos, estas herramientas probablemente formarán parte de un enfoque más amplio y centrado en las personas, en el que smartphones, especialistas e IA diseñadas con cuidado trabajen juntos para acelerar y afinar el diagnóstico de las convulsiones.

Cita: Patel, A., Vallamchetla, S.K., Safa, A. et al. Diagnostic accuracy of multimodal large language models in differentiating epileptic from functional seizures in smartphone recorded videos. Sci Rep 16, 11719 (2026). https://doi.org/10.1038/s41598-026-46333-z

Palabras clave: epilepsia, vídeos de convulsiones, inteligencia artificial, modelos de lenguaje extenso, diagnóstico médico