Clear Sky Science · de

Tiefenlernbasierte visuelle Algorithmen zur Identitäts- und Aktionserkennung in technischen Praktika

2026-03-31 · Zurück zur Übersicht

Beobachten, wer was in Praxisveranstaltungen macht

In vielen Ingenieurslaboren bewegen sich Studierende, schließen Kabel an, schreiben Code und schauen auf ihre Handys. Für Lehrende ist es schwer zu wissen, wer welche Aufgabe ausführt, und für Computer ist diese geschäftige Szene noch schwieriger zu interpretieren. Diese Studie stellt ein KI‑System vor, das sowohl die Identität von Studierenden als auch einfache Aktionen in einem realen Lehrlabor zuverlässig erkennen kann, selbst wenn Personen sich von der Kamera abwenden oder ihre Position ändern.

Figure 1. Wie ein KI‑System bewegte Studierende und ihre Handlungen in einem geschäftigen Ingenieursunterricht verfolgt.

Warum regelmäßige Gesichtskontrollen nicht ausreichen

Moderne Gesichtserkennung funktioniert gut, wenn Personen still sitzen und in Richtung einer Kamera schauen, etwa in einem Hörsaal oder an einem Sicherheitsportal. In praktischen Ingenieurskursen hingegen beugen sich Studierende über Tische, drehen den Kopf und bewegen sich zwischen Geräten. Unter diesen Bedingungen verliert die Standard‑Gesichtserkennung oft den Kontakt, weil sie auf klare Frontalansichten angewiesen ist. Methoden zur Personen‑Re‑Identifizierung, die das gesamte Körpererscheinungsbild nutzen, haben ähnliche Probleme, denn Körperform und Kleidung wirken sehr unterschiedlich, wenn Studierende sich vorbeugen, rotieren oder durch den Raum gehen.

Gesicht, Körper und Bewegung verbinden

Die Autoren schlagen ein Rahmenkonzept vor, das Informationen aus Gesichts‑ und Oberkörperbildern kombiniert und das Wissen während der Veranstaltung fortlaufend aktualisiert. Vor der Sitzung stellt jede Studentin/jeder Student ein klares frontales Foto dem Schulsystem zur Verfügung. Zu Beginn der Sitzung loggen sich die Studierenden ein, indem sie in der Laborumgebung in die Kamera schauen. Das System vergleicht ihre Gesichter mit den gespeicherten Fotos und speichert gleichzeitig für jede eingeloggte Person ein Körperbild. Diese anfänglichen Gesichts‑ und Körpermerkmale bilden den Ausgangspunkt, um später während der Stunde alle Personen nachzuverfolgen.

Ein lebendiges Gedächtnis für jede Studentin/jeden Studenten aufbauen

Sobald das Praktikum beginnt, analysiert das System Video mit etwa zehn bis fünfzehn Bildern pro Sekunde. Für jedes Bild erkennt es Gesichter und Körper und extrahiert kompakte numerische Beschreibungen davon. Wenn ein Gesicht im aktuellen Bild mit dem hinterlegten Gesicht übereinstimmt, der Körperabgleich aber schlecht ist, geht das System davon aus, dass das Gesicht vertrauenswürdig ist, und fügt die neue Körperansicht einer dynamischen Körperbibliothek hinzu. In anderen Situationen, wenn ein Körper gut übereinstimmt und seine Position zwischen den Bildern nur geringfügig ändert, während das Gesicht kurz fehlt, behandelt das System dies als schnellen Kopfturn und ergänzt die dynamische Gesichtsbibliothek um die neue Gesichtsansicht. Im Laufe der Zeit wird jede Studentin/jeder Student durch viele Beispiele von Gesicht und Körper unter unterschiedlichen Blickwinkeln, Skalen und Lichtbedingungen repräsentiert, was die Erkennung in späteren Bildern deutlich robuster macht.

Figure 2. Wie der Algorithmus wechselnde Gesichts‑ und Körperansichten über die Zeit zusammenführt, um Studierende zuverlässig zu identifizieren und zentrale Laborhandlungen zu erkennen.

Dem Computer beibringen, einfache Aktionen zu bemerken

Neben der Frage, wer sich im Raum befindet, interessiert Lehrende auch, was die Studierenden tun. Die Forschenden ergänzen das System um eine Verhaltenserkennungskomponente, die sich auf einige zentrale Laboraktivitäten konzentriert, wie Programmieren an einem Laptop, Kabel verbinden oder Telefongebrauch. Ein separates Werkzeug zeichnet strichfigurenähnliche Skelette über die Körper, um die Anordnung von Kopf, Rumpf und Gliedmaßen zu erfassen. Das Team trainiert anschließend einen leichten Bildklassifizierer, der diese skelettbasierten Posen unterscheidet. Weil dieses Modell vereinfachte Umrisse statt voller Bilder analysiert, kann es mehr als zwanzig Video‑Frames pro Sekunde verarbeiten — schnell genug für typische Klassenkameras.

Test des Systems in einem realen Labor

Das Rahmenkonzept wurde in einem Regelungs‑ und Servomotor‑Kurs mit sechs Studierenden bewertet, die Aufgaben wie das Verdrahten von Bauteilen, das Rücksetzen eines Motors auf seinen Ursprung und das Schreiben von Bewegungsprogrammen durchführten. Die Autoren verglichen drei Alternativen: reine Gesichtserkennung, reine körperbasierte Re‑Identifizierung und ihre kombinierte dynamische Methode. Während der Login‑Phase und während der gesamten Praktikumsstunde übertraf der kombinierte Ansatz deutlich die beiden anderen und erzielte höhere Präzision sowie bessere Gesamtergebnisse bei der Zuordnung, welche Studentin/welcher Student in jedem Videobild erscheint. Für das Aktionsmodul lag die Erkennungsgenauigkeit zwischen etwa zwei Dritteln beim Programmieren und über vier Fünfteln beim Telefongebrauch, obwohl nur ein relativ kleines Trainingsset verwendet wurde.

Was das für künftige Klassen bedeutet

Für eine allgemeine Leserschaft lautet die Kernbotschaft: Die Studie zeigt, wie die Kombination unterschiedlicher visueller Hinweise und deren fortlaufende Aktualisierung Computern helfen kann, in einem geschäftigen Lehrlabor Personen nachzuverfolgen und zugleich einige einfache Verhaltensweisen zu erkennen. Das System hat weiterhin Schwierigkeiten mit starken Seitenansichten des Gesichts und mit der vollen Vielfalt studentischer Bewegungen, aber die Autoren skizzieren Verbesserungsmöglichkeiten durch dreidimensionale Gesichtsmodelle und reichhaltigere Trainingsdaten. Außerdem betonen sie die Notwendigkeit von Datenschutzmaßnahmen, etwa das Speichern nur der notwendigsten Merkmale und die Verschlüsselung der Originalbilder. Zusammen deuten diese Ideen auf Laborumgebungen hin, in denen Computer Lehrende dezent unterstützen, indem sie Teilnahme und Aktivität überwachen, ohne das praktische Lernen zu stören.

Zitation: Ma, J., Wang, R. & Lan, W. Deep learning-based visual algorithms for identity and action recognition in engineering practical courses. Sci Rep 16, 15524 (2026). https://doi.org/10.1038/s41598-026-45964-6

Schlüsselwörter: Studentenüberwachung, Gesichtserkennung, Aktionserkennung, Ingenieurpädagogik, Computer Vision