第一章 绪 论
1.1 研究背景和意义
近年来,基于 CMOS 的感光器件、视频压缩芯片和网络接口芯片逐渐成熟,很多微处理器的处理能力也不断提高,越来越多的廉价网络摄像头投入到市场,与传统的 CCTV 系统的相比,优势是数字化、网络化,具备高度的标准性、开放性、集成性和灵活性,从而给整个安防产业的发展提供了更加广阔的空间。当前,网络摄像头应用于各行各业,如城市的安防管理,变电站的无人值守,平安校园计划,工厂、小区、银行、商场、医院的监控。然而,摄像头的广泛使用带来了安全方面的保障的同时需要消耗大量的人力和时间去查看录像的视频以确定异常事件,仅在一个摄像头的监控范围内,若想要准确知道 24 小时内发生的记录,则需要将这一事件段的监控视频从头至尾观看,如果仅靠人工观看浏览监控视频去查找线索,势必会消耗大量的时间。同时视频录像中重要的线索或活动对象,可能在监控画面中仅短暂出现数秒,利用人工查看极易遗漏这些散落在数十小时的视频数据中的重要信息。随着计算机视觉的发展,智能视频监控技术得到广泛的关注和研究,该技术源自美国、以色列等发达国家,尤其在 911 事件以后,随着对安全的日益重视,成为当前的研究热点。智能视频监控技术是使用计算机通过摄像头获取的视频帧序列进行分析,对监控场景做出一定的理解,实现对异常行为的自动预警和报警。该技术的发展主要经历了模拟视频监控系统、数字视频监控系统两个发展阶段,直到现在的智能视频监控系统[1]。但是在科学研究中的发展远远超过现实对研究成果的应用,并且很多视觉算法往往针对特定的场景,并没有成熟到能够应用到任何场景,市场上出现的很多智能监控系统的误报率很高,尤其是在复杂的场景下,如光照变化明显、人群拥挤交错的地方。视频浓缩是智能视频监控技术的一个重要组成部分。据 IMF 研究实验表明,观看者若连续观察 12 分钟的视频录像,会错过 45%的场景信息,若连续观察 22 分钟后会错过 95%的场景信息,从而忽略了许多转瞬即逝的重要信息。由于传统的视频浏览方式存在耗时、高工作量、低浏览效率的问题,所以大部分的监控视频数据几乎从未被浏览或审核过,仅仅由于事件发生后的人工回溯浏览,而不能主动、高效响应监控区域内的治安状态。而视频浓缩的目的一方面为了方便浏览巨量的视频数据库,另一方面作为高级智能视频监控的一个过渡,使用该技术压缩原始视频,事件的确定则依靠人的判断,因为目前依靠计算机视觉去完全理解视频监控场景的意义并不成熟。具体的说,视频浓缩技术利用计算机强大的计算能力,对海量的监控视频进行实时分析,按照用户的需求,过滤用户不关心的非重要信息,并对信息进行分类重组,形成信息密集的浓缩视频,方便人们快速浏览,在此基础上可以实现快速检索,很大程度上减少人的工作量。因此,针对视频监控系统,如何对原始视频进行深度浓缩,对用户感兴趣的视频内容进行高效快速地提取,并将其作为视频内容检索或过滤的重要参考指标具有重要的指导意义。
.......
1.2 国内外研究现状
基于对象的视频浓缩(video synopsis)由 Rav-Acha 等首次提出该技术的基本框架[2],该论文提出了使用能量函数最优化进行视频浓缩,并指出产生的浓缩应该具备四个特性:相对于原始视频,浓缩后的视频时间极大的缩短;最大活动事件应当出现在浓缩视频中;浓缩视频中对象的移动应该和原始视频中对应的对象相似;浓缩视频看起来应该很自然,拼接的痕迹和不完整的对象需要避免。为了最大限度的浓缩,对象可以再分段。如图 1.1,右图是基于一个完整对象的浓缩,将不同时间的不同对象在避免碰撞的情况下拼接到同一个时间起点下,左图是将同个对象进行分段再浓缩的情形。全景视频浓缩的浓缩方式在基本视频浓缩方式基础上增加了处理背景的过程。通过浓缩后的视频可以链接到原始视频,从而实现视频检索功能。视频浓缩也可以应用于电影,从理论上,视频浓缩算法需要针对不同的场景构建不同的背景,或者使用现有的方法先进行场景分割,然后应用视频浓缩算法,针对每个场景分别形成一个浓缩视频。Pritch 等人则首次将视频浓缩应用于视频监控中[3]。论文提出了管道(tube)的概念和视频浓缩的基本流程。目标或者对象是由管道构成的,管道是同一个对象在不同帧的连续性表示,如图 1.2 有两个管道,分别是婴儿和小孩,合成为浓缩视频。对实时视频的浓缩分为两个阶段,线上阶段主要任务是提取管道,将管道插入到对象队列,处理队列满的情况;反应阶段则是按照用户需求从对象队列产生对应的浓缩视频,主要包括构建背景视频,选择合适的管道,然后进行融合。管道提取和组合是浓缩的关键步骤。文中使用取中值做背景,最小割法结合混合高斯模型提取管道,并对前景停止过久变化为背景,背景中某一物体突然移动变成前景进行标记,以供查询使用。管道的组合采用能量最小化的方法。
.........
第二章 前背景分割
2.1 概述
分析和理解视频序列是一个前沿研究领域。在这个领域的很多应用如视频监控、移动捕捉、多媒体应用的第一步都需要在场景检测出移动前景。我们把分离的移动对象称为前景,相对的静态信息称为背景。最简单建构背景的方式是获取没有任何移动对象的图像。在某些场景下,因为光照或者移动对象,背景一直在动态变化,静态场景难以获取。因此,背景模型必须具备鲁棒性和适应性以应对这些挑战。背景提取的基本假设是:相机和相机参数固定;场景不应有光照变化;背景是可见和静态的,也就是像素临时的光照分布可以用统一模型的随机过程来表示,并且没有突然移动或者插入的背景对象(成为背景的对象);初始背景不包括睡眠前景对象(即可以移动的对象从背景变为前景);前景和背景可以通过阈值化处理背景图像和当前图像进行分离,此处特征的选取是关键。实践中不满足上述所有假设,比如光照的变化,室内和室外的场景。背景模型描述的是代表背景的一种模型。它本质上决定了模型处理单一模型或多个模型背景的能力。背景模型的建立包括模型初始化和模型的更新。模型的初始化可以使用第一帧,或者前 N 帧(连续或者不连续),隔 N 帧初始化直到建立完整的背景。初始化算法取决于背景模型及其复杂度,比如使用中值[12],直方图[13],固定间隔[14],以及 SVM[15]。背景更新必须是增量在线算法,因为新的数据一直在产生。这一步的主要要素有:更新策略,包括盲目的,选择性的和模糊适应性的;学习率,决定更新背景的速度,固定的或者动态调整的。更新频率,目标是仅在需要的时候更新。前景的检测是比较当前帧和背景帧给像素标记为前景或者背景像素的过程,本质是分类,可以使用基本的、统计的或者模糊分类工具。具体包括的步骤有预处理,测试,阈值分割,后处理。预处理是为了避免因相机移动或者光照变化导致的不重要的变化,这一步可能会涉及到几何和强度调整。测试通常是计算当前帧和背景模型之间的差异,之后选取合适的阈值进行分割,但是阈值可以是固定的,也可以是动态变化的。后处理的目的是增强前景的连续一致性,可以使用形态学操作[16],或者使用模糊推断方法[17]。
........
2.2 基于 LBSP 特征的非参数估计模型
为了随着时间变化获取精确的结果,同时也能够处理新进入场景的对象,模型必须定期更新。考虑的我们的模型是直接采用一定数目的样本,所以关键的问题在于选择哪些样本进行更新,然后选择这些样本的哪些部分进行更新。传统中的方法通常将最近更新的背景保留的更久,而在我们的模型中,采用无记忆更新策略,即对所有的样本采用同样的处理方式,但是也不是所有的全部更新,而是在所有样本中随机抽取一定数目进行更新。另一个方面为了保证整个模型的空间一致性,该性质主要是应对相机抖动或者变成前景的对象,其基本假设是某个像素和其邻域像素具有同样的分布,因此在更新某个像素时,会选择该像素的邻域进行更新,用当前帧像素的 LBSP 特征替代背景对应位置邻域的 LBSP 特征。策略同样是随机的,同时是选择性更新,即只有当前被当做是前景的那部分进行更新。实验中我们发现,这样更新的策略是有效的。分离出的前景我们使用中值滤波和基本的形态学操作进行后处理操作,但是处理后的前景并不作为模型的一部分,也就是说,模型依然根据未处理的前景进行下一帧的选择性更新。虽然基于 LBSP 特征的非参数估计在大多数场景下能够获得较好的效果,但是通常需要调节合适的参数才能够获取更佳效果,并且在夜晚的视频,远距离视频中或者有停止的目标时的分割效果不令人满意。因而采用分离高斯模型,继续完善前景分割的算法。
............
第三章 多对象跟踪与提取........20
3.1 概述......20
3.2 颜色直方图与 SIFT 特征 ...........23
3.3 对象匹配与场景建模..........26
3.4 评价模型......29
3.5 实验......29
第四章 浓缩视频的生成及其检索....31
4.1 概述......31
4.2 基本浓缩方式......32
4.3 分类方法......33
4.4 对象和背景的无缝融合......34
4.5 基于对象的视频检索..........35
4.6 实验......38
第五章 总结与展望....42
5.1 总结......42
5.2 展望......43
第四章 浓缩视频的生成及其检索
4.1 概述
基于对象的视频浓缩即是将不同时间的对象依照最少碰撞、做多使用空间原则拼接到同一个空间,同时保证视频的流畅性。背景的选取、对象的选取以及对象在背景上的组合是生成浓缩的基本问题。对于长时间的视频,不同时间的背景因光照变化、阴影或运动的背景等导致不同,如果拼接的不同对象处于不同的时刻导致其所依附的背景有很大差异会导致背景选取困难。事实上浓缩后的视频不是真实视频,所以背景的选择并非想象的那么重要,唯一的要求是能看见不同的对象运动。可以有三种策略进行背景选取,第一种是根据时间变化按照一定间隔选取背景,这样能反映视频随时间变化的特点;第二种是根据选取的对象选取背景,一帧上往往有很多对象,可以随机选取其中一个对象的背景,也可以采取混合策略,这样能反映对象所依附的背景;第三种则是结合先前两种采取混合策略。本文采用了第二种策略,一个对象所依附的背景只保存一帧,也就是对象产生时刻的背景。对象的选取和组合可以是时序的,也可以是非时序的。时序的优点是能反映对象在场景中出现的顺序,这样更容易理解,但通常并不是组合的最优解,即不是完全有效的利用了空间。得出组合的最优解往往是非时序的,这样虽然有效的利用了空间,减少了时间,却难以理解。实际中视频浓缩需要按照用户的要求生成。这些要求为对象的选取增加了附加限制条件。常见的限制条件有一定时间段,固定对象数和允许出现碰撞对象的总数。
.........
总结
本文对在海量视频中快速获取有用信息的方法即视频浓缩及其检索技术在前人的基础上进行了研究,分别在视频浓缩的每一步提出了自己的改进算法,并针对算法进行了评估,最终实现了不同类别的视频浓缩,并在对象提取的基础上实现高效的视频检索,达到快速寻找有用信息的目的。视频浓缩的基本步骤包括前背景分割、多对象跟踪以及对象的组合优化。前背景分割算法的目的是将一个场景中的变化部分和固定部分分割开来,其中的变化部分称为目标,或者前景,也称为帧对象,固定的部分称为背景。帧对象是构成对象的元素,提取帧对象也是构建完整对象的前提。前背景分割领域虽然一直都在进行研究,很多研究人员提出了诸多算法,当时当前依然是处于一个不断发展的状态,其主要原因来自于现实生活中的种种挑战。CDW2014 数据集则将现实中的挑战反馈出来,为前背景分割算法的评价及其发展提供了一个高效的平台。考虑到参数模型、非参数模型和 LBSP 各自的优点,本文基于非参数模型和 LBSP 特征提出了一种新的算法,并改高斯模型为分离高斯模型,之后融合这两种模型进行前景和背景的分割。实验证明这种融合算法优于传统的单一模型算法。同时也意味着单一的模型往往不能应对复杂的现实挑战,需要结合多种模型和方法去解决这些问题。传统的多对象跟踪问题主要是针对特定对象的跟踪,而这里的多对象跟踪主要是静态场景,且对象不固定,对象存在产生和消失的过程。本文设定的对象的生命周期取决于是否认识该对象,或者说是是否运用图像识别或者分类的算法对对象进行训练,将对象分为临时对象和长久对象,主要是针对不同的浓缩方法。对于临时对象,我们使用颜色特征、位置特征和 SIFT 特征进行匹配跟踪,其中的 SIFT 特征按照其优点主要是为了处理复杂的场景和对象的变形现象,并对跟踪结果对场景建模,场景主要分为正常区域、产生/消失区域和遮挡区域,运用模型的反馈结果来对匹配结果进一步的矫正。实验证明该模型既能够进行有效的跟踪,又能够妥善的处理遮挡和碰撞现象带来的跟踪难题。对于永久对象,其区别于临时对象就在于运用训练器进行识别,而不是使用特征匹配。
..........
参考文献(略)