高层语义特征的物理意义非常明确,但是还得对数据进行复杂的处理才能获得。一种比较熟悉的高层语义特征是目标时空轨迹。如果需要在一段人群稀少的监控视频里面获得噪声非常低的目标运动轨迹[17],然后让每一条轨迹作为一个基本事件[18],则需要借助目标跟踪算法来处理。但是这个算法有一个缺点,即在人群拥挤的场所,它的作用将会失效。为了解决这个问题,WU等学者运用质子平流的思想来获取关于粒子的运动轨迹[19]。ZHU等学者也同样为了解决跟踪轨迹没有效果的问题而采用了粒子的运动轨迹为特征[20]。但文献[11]认为要获得短时间的轨迹片段,目标不仅仅可以是人体的基本个体,还可以是人的一部分。Tran等学者则由三维时空块中找到了视频里目标的最优时空轨迹[21]从而提出时空路径优化算法。当异常事件发生的时候,但是人群又非常密集的时候,那么它的内部的一些能亮就会发声骤然的陡变。对于这个问题,MEHRAN等学者则提出了一种运动的规律,即社会力模型用作模拟人群[22],可以从该模型中提取出交互能量来当作事件描述子,然后WU等学者是通过提取人群运动的密度能量[23]。ZHU等学者他们认定任何轨迹之间相互影响的程度都是不同的,进而提出带权重交互能量[19],还有其它的一些模型即行人损失模型[26], ZAHARESCU等学者也提出了关于时空方向能量的表达事件[26]。
2 异常事件检测模型建立
取得表示基本事件的特征后,得建立代表正常事件的模型。众所周知,解决问题的办法有很多,所以建模的方法也各式各样,关键在于看问题的角度。我们从不一样的视角看待建模,详细介绍每个角度的研究现状。
1 基于分类与聚类的异常事件检测模型
这种模型的创立方法是把异常事件检测当作一种模式识别问题。因为特征集合中不仅包括这正常事件,同样也包括着异常事件,所以,该类模型创立问题其实是一个二分类的问题。当特征集合里没有异常事件样本而仅仅包含有正常的事件样本时,那么模型创立其实是一个聚类的问题,可以把异常事件实则是偏离了聚类中心的数据点。先是由训练数据样本,以获取正常事件的分类器,而后由分类器将检测的事件进行分类,这种做法是基于分类的异常事件平时检测模型的建立而经常用的。文献[26]中为了得到分类器的方法是使用级联硬阈值的方法来对多种特征进行提取的。例如神经网络等这些分类器也经常大范围的用于这些问题。文献[20]里面的基本事件是通过许多特征来一起表达的,异常事件检测是通过多核学习技术训练分类器。文献[27]则是通过一对多SVM来分类,在获取到异常事件检测分类器之前首先要对运动方向序列进行主成分分析降维处理。即使这些方法都能得到一个相对比较满意的成果,但是在许多情形中,样本的标签还是无法预知,况且正常事件和异常事件的种类和类型很多,不可以乱指一通。对于这种情况,认为异常事件检测是聚类问题则是在基于聚类的异常事件检测的基础上进行的。这种方法在某些特征空间里可以将异常事件和正常事件辨别开来,并且正常事件是紧密的在这些特征空间里。文献[28]则将视频序列分割成了小块,对每个视频快来说,在训练好的K-means树中快速地逼近最近邻点,然后以固定距离阈值来划分为正常事件和异常事件。
基本事件的表示形式是多元化的,而且特征维度相对较高。处理高维数据也是一个比较令人头疼的难题,为了解决好这个难题,Bag-of-words的思想也被引入其中。MEHRAN等学者通过对分割的视频块的交互能量使用词袋( bag of video words,BOW)的算法来进行建模[22]。WANG 等学者将隐含狄利克雷分布(latent Dirichlet allocation,LDA)混合模型、层次狄利克雷过程(hierarchical Dirichlet process,HDP)混合模型和双层次狄利克雷过程(dual hierarchical Dirichlet process,DHDP)模型进行了对比,还分析了每个方法的好处与存在的不足[29]。