Clear Sky Science · sv

Djupinlärningsbaserade visuella algoritmer för identitets- och aktivitetsigenkänning i praktiska ingenjörskurser

2026-03-31 · Tillbaka till index

Att se vem som gör vad i praktiska lektioner

I många ingenjörslabb rör sig studenter runt, kopplar sladdar, skriver kod och kollar sina telefoner. För lärare är det svårt att veta vem som gör vilken uppgift, och för datorer är den här kaotiska scenen ännu svårare att tolka. Denna studie introducerar ett artificiellt intelligenssystem som pålitligt kan känna igen både studenters identitet och enkla handlingar i ett verkligt undervisningslabb, även när personer vänder bort ansiktet från kameran eller byter position.

Figure 1. Hur ett AI-system håller reda på rörliga studenter och deras handlingar i ett hektiskt ingenjörsklassrum.

Varför vanliga ansiktskontroller inte räcker

Modern ansiktsigenkänning fungerar bra när människor sitter stilla och tittar mot en kamera, som i en föreläsningssal eller vid en säkerhetsgrind. I praktiska ingenjörskurser böjer sig studenter över bord, vrider på huvudet och går runt utrustning. Under sådana förhållanden tappar standardmetoder ofta bort personer eftersom de förlitar sig på tydliga, frontala vyer. Metoder för personåteridentifiering som fokuserar på helkroppsutseende har liknande problem, eftersom kroppsform och klädsel ser mycket olika ut när studenter lutar sig, roterar eller rör sig över rummet.

Sammansmältning av ansikten, kroppar och rörelse

Författarna föreslår ett ramverk som kombinerar information från både ansikts- och överkroppsbilder och som kontinuerligt uppdaterar sin kunskap under lektionens gång. Före lektionen lämnar varje student ett tydligt frontalt foto till skolans system. I början av sessionen loggar studenterna in genom att titta mot kameran medan de står i labbet. Systemet matchar deras ansikten mot de sparade fotona och spelar samtidigt in en kroppsbild för varje inloggad person. Dessa initiala ansikts- och kroppsdrag utgör startpunkten för att senare spåra alla under lektionen.

Att bygga ett levande minne för varje student

När den praktiska kursen börjar analyserar systemet video med omkring tio till femton bilder per sekund. För varje bild detekterar det ansikten och kroppar och extraherar kompakta numeriska beskrivningar av var och en. Om ett ansikte i aktuell bild matchar det sparade ansiktet men kropps-matchningen är svag, antar systemet att ansiktet är mer pålitligt och lägger till den nya kroppsvyn i ett dynamiskt kroppsbibliotek. I andra situationer, när en kroppsbild matchar väl och dess position bara ändras lite mellan bilder medan ansiktet kortfattat saknas, behandlar systemet detta som en snabb huvudvridning och lägger till den nya ansiktsvyn i ett dynamiskt ansiktsbibliotek. Med tiden representeras varje student av många exempel på deras ansikte och kropp under olika vinklar, skalor och ljusförhållanden, vilket gör igenkänningen i senare bilder mycket mer pålitlig.

Figure 2. Hur algoritmen sammansmälter skiftande ansikts- och kroppsvyer över tid för att pålitligt identifiera studenter och upptäcka viktiga labbaktiviteter.

Att lära datorn att uppmärksamma enkla handlingar

Utöver att veta vem som finns i rummet bryr sig lärare också om vad studenterna gör. Forskarna lägger till en beteendeigenkänningskomponent som fokuserar på ett fåtal centrala labbaktiviteter, såsom programmering vid en bärbar dator, att koppla kablar eller att använda en telefon. Ett separat verktyg ritar skelettliknande streckfigurer över människokroppar och fångar arrangemanget av huvud, bål och lemmar. Teamet tränar sedan en lättvikts bildklassificerare för att skilja dessa skelettbaserade poser åt. Eftersom denna modell analyserar förenklade konturer istället för hela bilder kan den bearbeta mer än tjugo videobilder per sekund, tillräckligt snabbt för att hänga med typiska klassrumskameror.

Test i ett verkligt labb

Ramverket utvärderades i en kurs i servomotorkontroll med sex studenter som arbetade med uppgifter som att koppla komponenter, återställa en motor till dess ursprungsläge och skriva rörelseprogram. Författarna jämförde tre alternativ: enbart ansiktsigenkänning, enbart kroppsbaserad återidentifiering och deras kombinerade dynamiska metod. Under inloggningsperioden och genom hela den praktiska sessionen överträffade den kombinerade metoden tydligt de andra två, med högre precision och bättre helhetsresultat när det gällde att avgöra vilken student som visades i varje videobild. För aktivitetsmodulen varierade igenkänningsnoggrannheten från ungefär två tredjedelar för programmering till över fyra femtedelar för telefonanvändning, trots en relativt liten träningsmängd.

Vad detta betyder för framtidens klassrum

För en lekmannaläsare är huvudbudskapet att studien visar hur sammansmältning av olika visuella signaler och kontinuerlig uppdatering över tid kan hjälpa datorer att hålla reda på vem som är vem i ett hektiskt undervisningslabb, samtidigt som de känner igen några enkla beteenden. Systemet har fortfarande svårigheter med kraftiga sidovyer av ansikten och med hela variationen i studenters rörelser, men författarna skisserar sätt att förbättra det genom tredimensionella ansiktsmodeller och rikare träningsdata. De betonar också behovet av integritetsskydd, såsom att bara lagra de mest nödvändiga dragen och kryptera ursprungliga bilder. Tillsammans pekar dessa idéer mot labbmiljöer där datorer tyst stödjer lärare genom att övervaka deltagande och aktivitet utan att störa det praktiska lärandet.

Citering: Ma, J., Wang, R. & Lan, W. Deep learning-based visual algorithms for identity and action recognition in engineering practical courses. Sci Rep 16, 15524 (2026). https://doi.org/10.1038/s41598-026-45964-6

Nyckelord: studentövervakning, ansiktsigenkänning, aktivitetsigenkänning, ingenjörsutbildning, datorseende