Clear Sky Science · ja

工学実習における個人と動作認識のための深層学習ベースの視覚アルゴリズム

· 一覧に戻る

実習授業で「誰が何をしているか」を見守る

多くの工学実験室では、学生が配線をつなぎ、コードを入力し、携帯電話を確認しながら歩き回ります。教師にとって誰がどの作業をしているのか把握するのは難しく、コンピュータにとってはこのような忙しい状況を読み解くのはさらに困難です。本研究は、人がカメラから顔をそらしたり姿勢を変えたりしても、実際の教室内で学生の身元と単純な動作を確実に認識できる人工知能システムを紹介します。

Figure 1. 混雑した工学教室で移動する学生とその行動をAIがどのように追跡するか。
Figure 1. 混雑した工学教室で移動する学生とその行動をAIがどのように追跡するか。

なぜ通常の顔チェックだけでは不十分か

近年の顔認識は、講義室や入退室ゲートのように人が静止してカメラを正面から向く状況ではよく機能します。しかし実習系の授業では、学生は作業台に身を乗り出したり頭を回したり、機材の周りを歩き回ります。こうした条件下では、標準的な顔認識は正面の明瞭な顔画像に依存するため人物を見失いがちです。全身の外観に着目する人物再識別手法も同様の問題を抱えます。学生が傾いたり回転したり教室内を移動すると体型や衣服の見え方が大きく変わるからです。

顔・身体・動きの融合

著者らは、顔と上半身の画像両方から得られる情報を統合し、授業の進行に合わせて継続的に更新する枠組みを提案します。授業前に各学生は学校システムに前向きの鮮明な写真を提供します。セッション開始時には、学生が実験室で立った状態でカメラを見てログインします。システムは保存された写真と顔を照合すると同時に、ログインした各人について体の画像も記録します。これらの初期の顔および身体の特徴が、授業中の追跡の起点となります。

各学生の生きた記憶を構築する

実習が始まると、システムは動画を毎秒約10〜15フレームで解析します。各フレームごとに顔と身体を検出し、それぞれのコンパクトな数値的記述を抽出します。現在のフレームの顔が登録顔と一致するが身体のマッチが悪い場合、システムは顔を信頼できるものとみなし、新しい身体ビューを動的な身体ライブラリに追加します。別の状況では、身体の一致が良好でフレーム間の位置変化がわずかであり顔が一時的に欠けている場合、これは素早い視線や頭の回転とみなして新しい顔ビューを動的な顔ライブラリに追加します。時間が経つにつれて、各学生はさまざまな角度、スケール、照明条件下での多数の顔と身体の例で表現されるようになり、後のフレームでの認識がはるかに安定します。

Figure 2. 時間経過で変化する顔と身体の視点をアルゴリズムがどのように統合して、確実に学生を識別し重要な実験動作を検出するか。
Figure 2. 時間経過で変化する顔と身体の視点をアルゴリズムがどのように統合して、確実に学生を識別し重要な実験動作を検出するか。

コンピュータに単純な動作を認識させる

誰が部屋にいるかを把握することに加え、教師は学生が何をしているかにも関心を持ちます。研究者らは、ノートパソコンでのプログラミング、配線作業、携帯電話の使用といったいくつかの主要な実験活動に着目した行動認識コンポーネントを追加します。別のツールが人体にスティックフィギュア状の骨格を重ね、頭部、胴体、四肢の配置を捉えます。チームはこの骨格ベースのポーズを区別する軽量の画像分類器を訓練しました。このモデルは全画像の代わりに単純化された輪郭を解析するため、毎秒20フレーム以上を処理でき、一般的な教室カメラの速度に追随できます。

実際の実験室でのシステム検証

この枠組みは、サーボモータ制御の実習コースで評価され、6名の学生が部品の配線、モータの原点復帰、動作プログラムの作成などの課題に取り組みました。著者らは、顔認識のみ、身体ベースの再識別のみ、そして提案する結合された動的手法の3つを比較しました。ログイン期間および実習全体を通じて、結合手法は他の2つを明らかに上回り、どの学生が各ビデオフレームに現れたかを判断する際に高い精度とより良い総合スコアを達成しました。動作モジュールの認識精度は、プログラミングで約3分の2から携帯電話使用で5分の4以上までの範囲で、比較的小さな訓練セットを用いたにもかかわらず良好な結果を示しました。

将来の教室に向けての示唆

一般読者にとっての主なメッセージは、本研究がさまざまな視覚手がかりを融合し時間とともに更新することで、忙しい実験室内で誰が誰であるかをコンピュータが追跡できるようになり、いくつかの単純な行動も認識できることを示した点です。システムは依然として顔の強い横顔や学生の多様な動きには苦戦しますが、著者らは三次元顔モデルやより豊富な訓練データを用いて改善する方法を示唆しています。また、必要な特徴のみを保存し元画像を暗号化するなどのプライバシー保護策の必要性も強調しています。これらのアイデアを組み合わせることで、コンピュータが実習の妨げにならずに参加状況や活動を静かに支援するような実験室環境が見えてきます。

引用: Ma, J., Wang, R. & Lan, W. Deep learning-based visual algorithms for identity and action recognition in engineering practical courses. Sci Rep 16, 15524 (2026). https://doi.org/10.1038/s41598-026-45964-6

キーワード: 学生モニタリング, 顔認識, 動作認識, 工学教育, コンピュータビジョン