基于特征关联的人物关系理解

论文价格:0元/篇 论文用途:仅供参考 编辑:论文网 点击次数:0
论文字数:**** 论文编号:lw202329721 日期:2023-07-22 来源:论文网

本文是一篇软件工程论文,本学位论文以视频中人物之间的关系理解为研究目标,首先设计了一种基于增强语义的目标检测方法来对视频首先进行关键帧提取,然后在关键帧上提取增强特征特征提取,得到增强特征后进行目标检测。在通过基于残差网络的空间-时间特征提取,对整个视频进行全局特征的提取,最后通过一种基于多尺度分析的人物关系使用构建多重图来预测视频中的人物关系。
第一章 绪论
1.1论文研究背景和意义
本学位论文得到了江苏省重点研发计划(社会发展)项目(BE2016778、BE2019739)的资助,目的是利用深度学习算法理解视频中人物的社交关系。


软件工程论文怎么写

人物关系就是人们在日常生活以及生产活动的过程中形成的一种关系,在社会中,社交是指社会中人和人之间的交往,它是一种社会活动,能够分享信息并且可以一起探讨思想,然后最终能够达到某种目的,所有社交关系即人在社交时形成的一种关系,本质上都是人与人之间的关系[1]。人物作为在视频中有重要存在感的实体,也是社会发展的核心。从大量的视频数据中对人物关系进行抽取,能够很好的对视频进行理解以及人物追踪等,所以对基于特征关联的人物关系理解的研究逐渐成为现在视觉领域的研究热点。
如今的数字内容的含义本质上为多媒体,包括图像、视频以及文字等。随着传感器丰富的移动技术的普及,图像以及视频显然成为互联网用户之间一种新的交流方式。视频人物社交关系的理解主要工作包括视频的目标检测和人物社交关系识别。视频目标检测是指对给定图像或者其他给定的视频确定是否包含给定的类别的实例对象,比如车[2]、动物、人等。如果存在,返回一个边界框。人物社交关系识别是指在给定的视频或者图像中检测出视频中或者图像中的动作和上下文线索来推理出人物之间的社交关系,输出人物之间的关系。
卷积神经网络[3]在视觉表示的学习能力让其被广泛应用于识别特征,随着在各种分类的问题中表示出的稳健性,越来越多的科研人员应用卷积神经网络去研究人物关系的理解。一般的卷积神经网络的构成主要涵盖了卷积和激活以及池化层。卷积神经网络的结果是给定图像的特征空间,在解决分类问题的时候,卷积神经网络的结果传入全连接层,然后将输入内容使用标签类型将其表示,这就是所说的分类。卷积神经网络是目前对图像提取特征的最有效的方式,分类的准确度也因此大幅度提升。
..............................
1.2视频目标检测研究现状分析
视频人物关系理解是目前视觉领域以及模式识别中比较主流的研究方向,主要任务是从给定视频中抽取出视频内容的信息并使用相关技术继续进行分析。进行人物关系理解首先最重要的是进行特征提取以及目标检测等过程,这一节将分别概述国内外视频目标检测的研究现状分析。
目标检测目前是视觉领域中属于比较热门的一个研究点,在多个领域都体现了它关键的地位以及研究意义,现在对图像进行分类的方法越来越多并且结果越来越准确,所以目标检测算法也逐渐的成为现在研究的主流。目标检测这方面的算法重点包含两种类型:two stage以及one stage,第一种目标检测算法首先需要对候选框进行获取,然后将得到的候选框使用卷积神经网络对其进行分类,相比于第二种算法第一种在准确率上更有优势。one stage是没有候选框直接把定位问题变成回归问题处理,相比于第一类one stage在速度上更有优势。
(1)two stage目标检测算法
在深度学习发展的过程中,都是围绕分类问题来进行研究,主要因为神经网络的输出结合了概率以及分类问题,非常直观。对于目标检测与深度学习领域相结合,国内外的研究人员都在推进,但没有取得明显的成效,2014年出现的R-CNN[8]算法对推进目标检测的研究提供了非常大的帮助。R-CNN属于two stage类算法的典型代表,这一系列算法还包括SPPNet[9]、Fast R-CNN[10]、Faster R-CNN[11]等。
Girshick等人设计的R-CNN跟常用的目标检测思想一致,大致包含这几部分,第一部分是提取候选框[12],后面三部分为对候选框进行特征提取和分类以及非极大值抑制。R-CNN算法先利用选择性搜索[13]这个算法获得候选框,将候选框作为输入,使用深度卷积神经网络,就可以获得所有候选框的特征向量,然后将其送入支持向量机进行分类,得到候选框中包含的内容属于某个类的概率。Ren 等人提出的SPPNet在网络结构中加入了空间金字塔池化结构,避免了R-CNN算法中存在的对图像区域的进行操作导致图像裁剪不全的问题,此方法不仅提高了产生候选框的速度还节约了计算成本。
..............................
第二章 相关工作
2.1视频目标检测
目标检测已经被广泛的在计算机视觉领域应用,对于基于图像的目标检测方式在有遮挡或者图片模糊的情况下进行检测是比较困难的,在视频中进行目标检测有助于从时间维度中去找到线索,因此在视频中的有效特征提取能够提升视频人物关系理解的准确度。关键帧提取以及特征提取都是视频内容目标检测学习中比较常见的步骤,通过融合更多时间维度上的特征来得到最终的图像特征,接下来本文将介绍在视频目标检测技术中涉及到的一些研究内容。
2.1.1 关键帧在目标检测中的应用
目前基于图像的目标检测研究已经逐渐成熟,如果将视频流的检测按照使用一帧一帧的图像进行目标检测会出现一些问题,比如由于视频中的每帧之间存在时间与空间的相关性,两两相邻帧中进行特征提取会提取到冗余的特征信息,这样会导致计算的浪费。因此如今的研究热点逐渐转移至视频的目标检测研究上,在视频流的目标检测方法中,有使用视频流的关键帧进行特征提取然后进行视频目标检测的,由此可以分析出关键帧在这一领域也发挥了其作用。根据关键帧的选取以及特征图传播方式的视频目标检测主要包括以下两种方法。
(1)基于稀疏特征传播[27]的视频目标检测
上述提到相邻帧中进行特征提取会提取到冗余特征信息,而稀疏特征传播的方法很好的解决了这一问题。此方法在视频流中每m张选择其中一张图像当成关键帧,且对关键帧计算特征图。另一方面对于不是关键帧的图像,计算它的特征图首先将最临近的关键帧以及不是关键帧的图像当成输入的光流,然后将最临近的关键帧的特征图当成输入的翘曲的方式计算得到其特征图。这种方法主要是在稀疏的关键帧上进行卷积网络操作然后把这些深度特征传播到不是关键帧中去继而完成目标检测。通过这种方法进行检测速度会提升许多,但缺点是精度会有所下降。
...........................
2.2卷积神经网络在特征提取中的应用
视频的空间-时间特征提取主要设计的知识点包括了卷积神经网络以及残差网络,接下来本文将介绍在视频特征提取中涉及到的一些研究内容。
2.2.1 卷积神经网络网络结构
卷积神经网络的主要构成有卷积、激活函数、池化、Dropout、BN以及全连接这6个层。卷积层包括普通卷积以及空洞卷积;激活层中可使对函数的一些参数进行设置;池化层的池化操作包括最大值池化以及平均值池化等;Dropout层的功能是在训练模型的时候如果数据过少,可以防止过拟合;BN层的作用是让每一层的输出数据能够保持稳定的标准差和均值,缓解梯度消失的情况,让模型能够更加稳定;全连接层作用是用来分类。 接下来本文将介绍部分常见的一些网络结构,例如VGGNet[34]、Inception[35]、FPN、DetNet[36]、ResNet[37]。
(1) VGGNet
VGGNet是基于Alexnet[38]的一个网络,它具有更小的卷积核和更小的池化核,同时把网络的层数进行加深,加到了16层以及19层,因为卷积核用于增加通道数然后池化核用于减小宽高,得到了一个又深又宽的模型架构。VGGNet主要是走向深度的一个网络。
(2) Inception
上述VGGNet是一个走向深度的一个网络,Inception则是一个向宽度发展的一个网络。此网络的结构为在同一层中,包含三个不同尺寸的滤波器和池化操作,滤波器大小分别为1*1、3*3、5*5,经过操作输出特征图再整合起来。Inception经过多次改进已经存在多个版本,包括Inception v1、Inception v2[39]、Inception v3[40]、Inception v4[41]。如图2.4为Inception v1结构图。


软件工程论文参考

..........................
第三章 基于增强语义的视频人物目标检测 ................................... 17
3.1问题描述 ....................... 17
3.2基于视频的关键帧提取 ......................... 18
第四章 基于残差网络的视频人物时空特征提取.............................................. 30
4.1问题描述 ....................... 30
4.2基于3DCNN的残差网络改进 ................................... 31
第五章 基于多尺度分析的视频人物关系识别..................................... 40
5.1问题描述 ............................................ 40
5.2基于特征提取的多重图模型 .............................. 41
第五章 基于多尺度分析的视频人物关系识别
5.1问题描述
视频人物关系识别就是从视觉内容中发现社会关系,例如,亲属关系,情侣关系等,可以使智能机器更好的解释人类的情感和行为。推理视频人物的社交关系由于空间环境的杂乱,一般的从静止图像中识别社会关系的方法并不适用于视频。视频人物关系的识别,我们可以通过观察单个人的行为,人与人之间的互动以及人与情景对象在场景中的共存来识别视频中的社交关系。因此,为了有效进行视频中社交的理解,本章从空间和时间两方面入手,在空间方面,设计一个三种情况的图模型来捕捉人与物体之间的视觉关系。在时间方面设计一个改进的卷及网络来进行时间推理,使之能够更加全面的挖掘视频中社会关系。
Zhang等人[64]提出用卷积神经网络(CNN)从人脸图像中学习社会关系特征,Li等人提出一种可以对社会关系进行识别的双瞥模型,第一眼聚焦于感兴趣的人,第二眼通过注意力机制来发现上下文线索。Meng等人提出一种多粒度推理框架,可以从给定图像中对社会关系进行识别,使用人与对象图模型以及人姿态图模型来模拟人与人之间的交互。但是这些方法都是基于图像进行识别社交关系,仅仅考虑了空间的特征,未考虑时空特征,并且只考虑了粗粒度的特征,忽略了视频中人物、对象和场景的相互作用。
针对上述问题,本章设计了一种基于多尺度分析的视频人物关系识别(CRR-MS)算法,使用金字塔图卷积网络对建模的多重图进行卷积,并对卷积结果与第四章中视频提取的全局时空特征进行加权融合,这样能够更好的对视频中的综合信息通过时空推理来实现社会关系理解。
...............................
第六章 总结与展望
6.1工作总结
近年来人物关系理解在图片方面取得了突出的成就,但是对于视频的人物关系识别还需要进行深入的研究。本学位论文以视频中人物之间的关系理解为研究目标,首先设计了一种基于增强语义的目标检测方法来对视频首先进行关键帧提取,然后在关键帧上提取增强特征特征提取,得到增强特征后进行目标检测。在通过基于残差网络的空间-时间特征提取,对整个视频进行全局特征的提取,最后通过一种基于多尺度分析的人物关系使用构建多重图来预测视频中的人物关系。本文具体的工作内容如下:
(1)设计一种基于增强语义的视频目标检测方法来对视频进行目标检测,得到视频中人与物的候选框。该方法首先设计了一种密度聚类的关键帧提取方法,首先需要得到每帧视频的图像熵,找到图像熵映射的二维坐标中的局部极值点,然后将这些点进行聚类得到视频中的关键帧。然后设计了一种存储模块对关键帧进行增强特征提取,得到特征后进行分类与回归,得到分类回归结果。实验结果表明该方法设计的关键帧提取方法能够准确的提取视频中的关键语义,并且在各种类型的视频上都有比较好的准确率,并且实验中使用的增强特征提取,让关键帧能够利用缓存的信息去建模全局与局部的依赖关系进行特征提取,得到更加准确的目标检测结果。
(2)设计一种基于残差网络的空间-时间特征提取方法来对视频进行全局特征的提取,首先将3D滤波器分解为(2D+1D)形式,然后对残差块进行设计,将设计的残差块与提出的沙漏结构进行结合,对设计的网络进行训练及测试完成视频的空间-时间特征提取。此外通过实验结果表明,该方法相比于一些传统方法在效率上有一定的提升,并且在关系数据集上也同样有效。
参考文献(略)

如果您有论文相关需求,可以通过下面的方式联系我们
客服微信:371975100
QQ 909091757 微信 371975100