Clear Sky Science · es

Algoritmos visuales basados en aprendizaje profundo para el reconocimiento de identidad y acciones en cursos prácticos de ingeniería

· Volver al índice

Vigilando quién hace qué en las clases prácticas

En muchos laboratorios de ingeniería, los estudiantes se desplazan para conectar cables, escribir código y mirar el móvil. Para los docentes es difícil saber quién realiza cada tarea, y para los sistemas informáticos esa escena concurrida resulta aún más difícil de interpretar. Este estudio presenta un sistema de inteligencia artificial que puede reconocer con fiabilidad tanto la identidad de los estudiantes como acciones sencillas en un laboratorio real, incluso cuando las personas se giran respecto a la cámara o cambian de postura.

Figure 1. Cómo un sistema de IA sigue a estudiantes en movimiento y sus acciones en un concurrido aula de ingeniería.
Figure 1. Cómo un sistema de IA sigue a estudiantes en movimiento y sus acciones en un concurrido aula de ingeniería.

Por qué las comprobaciones faciales habituales no bastan

El reconocimiento facial moderno funciona bien cuando las personas están quietas y miran hacia la cámara, como en un aula magistral o en un acceso de seguridad. Sin embargo, en los cursos prácticos de ingeniería los estudiantes se inclinan sobre las mesas, giran la cabeza y se mueven alrededor del equipo. En estas condiciones, el reconocimiento facial estándar suele perder el rastro de las personas porque depende de vistas frontales claras. Los métodos de reidentificación que se centran en la apariencia corporal presentan problemas similares, ya que la forma del cuerpo y la ropa cambian mucho cuando los estudiantes se inclinan, rotan o se desplazan por la sala.

Combinando caras, cuerpos y movimiento

Los autores proponen un marco que combina información tanto de imágenes faciales como de la parte superior del cuerpo y va actualizando lo que sabe conforme avanza la clase. Antes del curso, cada estudiante facilita al sistema una foto clara frontal. Al inicio de la sesión, los estudiantes inician sesión mirando a la cámara mientras están de pie en el laboratorio. El sistema compara sus rostros con las fotos almacenadas y, al mismo tiempo, registra una imagen del cuerpo para cada persona que se identifica. Estas características iniciales de cara y cuerpo constituyen el punto de partida para rastrear a todos a lo largo de la clase.

Construyendo una memoria viva de cada estudiante

Una vez que comienza la práctica, el sistema analiza vídeo a razón de aproximadamente diez a quince fotogramas por segundo. Para cada fotograma detecta caras y cuerpos y extrae descripciones numéricas compactas de cada uno. Si una cara en el fotograma actual coincide con la cara en el archivo, pero la coincidencia del cuerpo es débil, el sistema asume que la cara es fiable y añade la nueva vista corporal a una biblioteca dinámica de cuerpos. En otras situaciones, cuando un cuerpo coincide bien y su posición cambia solo ligeramente entre fotogramas mientras la cara está brevemente ausente, el sistema interpreta esto como un giro rápido de cabeza y agrega la nueva vista facial a una biblioteca dinámica de caras. Con el tiempo, cada estudiante queda representado por muchos ejemplos de su cara y cuerpo en distintos ángulos, escalas y condiciones de iluminación, lo que hace que el reconocimiento en fotogramas posteriores sea mucho más fiable.

Figure 2. Cómo el algoritmo fusiona vistas cambiantes de la cara y el cuerpo a lo largo del tiempo para identificar con fiabilidad a los estudiantes y detectar acciones clave en el laboratorio.
Figure 2. Cómo el algoritmo fusiona vistas cambiantes de la cara y el cuerpo a lo largo del tiempo para identificar con fiabilidad a los estudiantes y detectar acciones clave en el laboratorio.

Enseñando al ordenador a detectar acciones sencillas

Más allá de saber quién está en la sala, a los instructores también les importa qué están haciendo los estudiantes. Los investigadores añaden un componente de reconocimiento de comportamiento que se centra en unas pocas actividades clave del laboratorio, como programar en un portátil, conectar cables o usar un teléfono. Una herramienta separada dibuja esqueletos tipo palo sobre los cuerpos, capturando la disposición de cabeza, torso y extremidades. El equipo entrena luego un clasificador de imágenes ligero para distinguir estas posturas basadas en esqueletos. Como este modelo analiza contornos simplificados en lugar de imágenes completas, puede procesar más de veinte fotogramas por segundo, lo bastante rápido para seguir el ritmo de cámaras típicas de aula.

Probando el sistema en un laboratorio real

El marco se evaluó en un curso de control de servomotores con seis estudiantes trabajando en tareas como cablear componentes, reiniciar un motor a su origen y escribir programas de movimiento. Los autores compararon tres opciones: solo reconocimiento facial, solo reidentificación basada en el cuerpo y su método dinámico combinado. Durante el periodo de inicio de sesión y a lo largo de la sesión práctica, el enfoque combinado superó claramente a los otros dos, logrando mayor precisión y mejores puntuaciones globales al decidir qué estudiante aparecía en cada fotograma de vídeo. Para el módulo de acciones, la precisión del reconocimiento osciló entre aproximadamente dos tercios para la programación y más de cuatro quintos para el uso del teléfono, pese al uso de un conjunto de entrenamiento relativamente pequeño.

Qué significa esto para las aulas del futuro

Para un lector general, el mensaje principal es que el estudio muestra cómo la fusión de distintas señales visuales y su actualización a lo largo del tiempo puede ayudar a los sistemas informáticos a seguir en un laboratorio ocupado quién es quién, además de reconocer unas cuantas conductas simples. El sistema aún tiene dificultades con vistas laterales pronunciadas del rostro y con la gran variedad de movimientos estudiantiles, pero los autores describen formas de mejorarlo usando modelos faciales tridimensionales y datos de entrenamiento más ricos. También subrayan la necesidad de salvaguardas de privacidad, como almacenar solo las características estrictamente necesarias y encriptar las imágenes originales. En conjunto, estas ideas apuntan a entornos de laboratorio donde los ordenadores apoyan discretamente a los docentes monitorizando la participación y la actividad sin interrumpir el aprendizaje práctico.

Cita: Ma, J., Wang, R. & Lan, W. Deep learning-based visual algorithms for identity and action recognition in engineering practical courses. Sci Rep 16, 15524 (2026). https://doi.org/10.1038/s41598-026-45964-6

Palabras clave: monitoreo de estudiantes, reconocimiento facial, reconocimiento de acciones, educación en ingeniería, visión por computadora