Clear Sky Science · ja

病室および実際のデータセットにおける自傷検出のための行動認識モデルのベンチマーク

2026-01-31 · 一覧に戻る

デジタルの目で患者を見守る

精神科病院では、特に自ら傷つける危険のある患者の安全を守るため、看護スタッフが懸命に働いています。しかし、最も献身的な人員でも全ての部屋を常時見守ることはできません。本研究は、病棟のカメラ映像を自動的にスキャンして自傷の初期兆候を検出し、人によるケアを置き換えることなく補助的な保護を提供できるかを人工知能（AI）で検証しています。

なぜ自傷は見つけにくいのか

自傷とは、人が自分に意図的に与える傷害を指し、多くの場合、短く隠れた瞬間に起こります：毛布の下での素早いひっかきや、視界から外れた場所で使われる小さな道具などです。精神科病棟では定期チェックやカメラ監視に頼っていますが、死角やスタッフの疲労、夜間や休日の人員不足により常時監視は不可能です。同時に、実際の患者映像を記録・共有することは重大なプライバシーと倫理上の懸念を生みます。そのため、現実の行動をリアルタイムに検出するAIを訓練するための現実的な映像データはほとんど得られていません。

AIのためのより安全なテストベッドの構築

この膠着状態を打破するために、研究者は二種類の動画データセットを作成しました。まず、四床の精神科病室を模したスタジオで、患者用のガウンを着た7人の若い俳優が慎重に計画された場面を演じました。彼らはプラスチックのキャップ、リップバームのチューブ、小さな釘など日用品を探し、手首、前腕、太ももでの短い自傷動作を演じ、天井からのカメラで四隅から録画しました。専門家が各ビデオ区間を正常行動か自傷かにラベル付けして、均衡の取れた1120本のクリップを整備しました。次に、研究チームは厳重な精神科病棟から10か月分の実際の監視映像を収集しました。臨床医がスクラッチ、つまむ、切るといった行動に関する診療記録を検索し、対応する映像を特定しました。顔をぼかし、識別可能な情報を除去したうえで、実際の自傷を示す59本と比較用の正常59本を組みました。

整ったラボ映像が混沌とした現実に出会うと

整然としたスタジオ映像では、VideoMAEv2と呼ばれる最先端のトランスフォーマーモデルが際立ちました。これは見逃しと誤警報のバランスが最も良く、おおむね0.65のF1スコア（精度と再現率の総合指標）を達成したのに対し、簡易な手法はほぼランダム推定の域を出ませんでした。可視化による説明は、このモデルが背景の動きに惑わされず、道具が皮膚に触れる箇所に的を絞っていたことを示しました。しかし、同じ訓練済みシステムを実際の病棟録画（再訓練なし）で試すと、性能は低下しました。VideoMAEv2は依然として偶然よりは良い結果でF1スコア約0.61を示しましたが、模擬データに存在しなかったつまむ・引っかくといった微妙な行動や、小柄な患者、カメラから遠い位置、部分的に隠れた患者に対しては特に苦戦しました。

患者の安全にとっての意味

総じて、結果は明確な「シミュレーションから現実への」ギャップを示しています。慎重に演出された映像で有望に見えるAIシステムも、病院の日常の雑然さ、奇妙な角度、多様な行動に直面すると挫折する可能性があります。本研究の主要な貢献は完成された安全製品ではなく、出発点の提示です：公開された詳細なアノテーション付きスタジオデータセット、丁寧に収集された実世界のテストセット、そして現行手法がどこで破綻するかを示す透明なベンチマークです。一般向けのメッセージは明快です：AIは既に病棟映像の疑わしい瞬間を強調する手助けができる一方で、単独の守護者として信頼することはまだできません。このギャップを埋めるには、より豊富で多様な訓練データと、プライバシー、公平性、臨床判断を重視して開発されたより賢いモデルが必要です。

引用: Lee, K., Lee, D., Ham, HS. et al. Benchmarking action recognition models for self-harm detection in studio and real-world datasets. Sci Rep 16, 6850 (2026). https://doi.org/10.1038/s41598-026-36999-w

キーワード: 自傷検出, 精神科病棟, 動画行動認識, 医療における人工知能, 患者安全

デジタルの目で患者を見守る

なぜ自傷は見つけにくいのか

AIのためのより安全なテストベッドの構築

最新の動画AIを試験する

整ったラボ映像が混沌とした現実に出会うと

患者の安全にとっての意味