Learning Regularity in Skeleton Trajectories for Anomaly Detection in Videos

Learning Regularity in Skeleton Trajectories for Anomaly Detection in Videos

单位: Deakin University
会议: CVPR 2019
论文地址: arxiv
代码: skeleton_based_anomaly_detection

请添加图片描述

问题

该问题的挑战性在于缺乏人的监督和视频事件中人类可感知异常的定义很模糊。其中基于像素的特征受噪音影响大,掩盖了场景中的重要信息,更进一步,这些特征中存在的冗余信息增加了训练模型去分辨噪声和特征的负担。同时当前的方法由于视觉特征和事件真实意义之间存在语义差异,缺乏可解释性。这种局限性又因为深度神经网络放大了。

创新

提出了一种新的方法来建模监控视频中人体运动的正常模式,使用动态的骨架特征进行异常检测,将骨架运动分解为两个子部分:整体身体运动和局部身体姿势。与传统的基于外观的模型相比,该方法具有更好的异常检测性能,同时提供了语义上可理解的特征和支持可解释性的网络架构,提供决策影响因素的权重和这些因素的可视化,支持对其内部推理的开箱解释。

为什么使用骨架特征?

相比于基于外观的特征,骨架特征紧凑、具有结构性,语义丰富,对人类行为和运动具有高度描述性

为什么将骨架运动分解为全局和局部两部分?

在真实的监控视频中,人体骨骼的大小在很大程度上取决于它们的位置和动作。对于近处的骨骼,观测到的运动主要受局部因素的影响。同时,对于远处的骨骼,其运动主要由整体运动控制,而局部变形则被忽略

为什么将包围盒作为全局运动特征的一部分

在2D图像空间中,因为缺少深度信息,仅xy坐标无法很好地反映场景中的真实位置。但是,骨架边界框的大小与骨架在场景中的深度相关。

img

网络结构

img

实验

ShanghaiTech数据集中的大多数异常事件都与人类有关,剔除了6个异常事件与人类无关的测试视频,并将其他101个视频作为Human-related (HR) ShanghaiTech

img

错误模式分析

img

  • 最主要的原因在于骨架的检测和跟踪的不准确率
  • 异常主体的骨架和正常主体的骨架相似

总结与展望

骨架特征平均每帧不到100维仍然提供与当前最先进方法相同或更好的性能。显然,MPED-RNN的性能仍然取决于骨架检测和跟踪的质量。这个问题在低分辨率视频的情况下更为严重。对于骨架不可用的情况,基于外观的特征可以提供补充信息。虽然在大多数情况下,单个的运动和姿势可以反映异常情况,但是不包括事件中多人之间以及人与物体之间的交互信息。