本文是一篇软件工程论文,笔者针对基于时空记忆的方法无法处理同类语义物体带来的干扰问题,本工作提出了一种时空场景学习的半监督视频目标分割算法。该算法给予了周围场景中其他物体与前景目标对象同等的关注。
第一章 绪论
1.1研究背景及意义
随着智能终端技术的日益成熟以及互联网行业的快速发展,视频已成为大数据时代下最主要的信息载体,在智能化城市建设、安全监控部署、多媒体辅助应用与娱乐等热 门领域中发挥着重要的作用,因此亟需自动化的视频处理技术。
视频目标分割(Video Object Segmentation,VOS)是对视频场景中具有特定特征属性或语义的目标对象进行识别的过程。视频目标分割根据是否存在人为参与,可以分为无监督VOS和半监督VOS。目前,基于半监督式分割的VOS算法的效果最好,其根据给定的待分割视频序列以及第一帧的目标掩码注释,利用计算机算法自动为剩余视频序列中的目标对象进行建模。该任务属于少样本监督学习,其中,监督数据仅来自于第一帧给定的分割掩码,用以“告知”算法目标对象是什么,使其完成后续分割。相比于视频分类、目标检测与跟踪等相似任务,视频目标分割的结果则需要达到像素级别的精度(图1-1),是一项极具挑战性的任务。
软件工程论文怎么写
...........................
1.2国内外研究现状
由于半监督视频目标分割任务属于小样本学习的范畴,因此现有先进的方法大都采用元学习技术来完成视频目标分割任务,即学习如何充分利用已知的单帧样本信息完成分割任务。因此在本节中首先介绍了元学习的发展现状,然后再对现有的半监督视频目标分割任务的相关方法进行了介绍。
1.2.1元学习 随着深度学习的方法在各领域取得了巨大的成功[1][2][3],当前的机器学习模型通常使用人为设计的固定学习算法为特定任务从零开始训练。然而,这样的做法存在着明显的局限性[4],例如需要收集或生成大量的数据,以及需要大量的计算资源进行训练。这在很大程度上限制了其在其他领域的应用。
元学习,又被称为“学会学习”,提供了另外一种学习范式,即机器学习模型在多个学习事件中获得经验,并用这些经验来提高其未来的学习能力。神经网络中的元学习有着悠久的历史[5][6][7]。然而,元学习作为推动当代深度学习行业前沿发展的驱动力,导致了近期研究的爆炸性增长。特别是元学习有可能解决当代深度学习的缺陷,如需要提高数据效率、知识迁移和无监督学习。元学习已经被证明在多任务场景下是有用的,其中任务独立(task-agnostic)的元学习从一系列任务中学习知识,并用于改善该系列中新任务的学习[5][8];在单任务场景下,一个问题被反复解决并在多个场景下得到改善[9][10][11]。元学习也在一些领域得到了成功应用,包括图像识别[8][12],无监督学习[13][14]、强化学习[15],超参数优化[9]和神经架构搜索[10][16][17]。
.........................
第二章 视频目标分割方法相关技术
2.1引言
由于深度学习的出现,计算机视觉的相关任务获得了很大的进展。近年来,卷积神经网络在图像分类、目标检测、实例分割等主要任务上都做出了令人瞩目的成就,成为了计算机视觉领域的研究热点。此外,大规模数据集的出现,使得使用卷积神经网络处理这些任务成为了可能。借助迁移学习等技术手段,卷积神经网络在图像分类中所学到的知识可以被运用在目标检测、图像分割等任务中。因此,很多计算机视觉相关任务都使用了经典的卷积神经网络作为基本网络,并通过对它们进行扩展以适应新任务。由卷积神经网络思想的影响,全卷积网络被提出用于图像语义分割,这使得像素到像素的预测成为了可能。目前大多的视频目标分割方法都是以图像语义分割为基础,它们有着类似的网络结构。此外,全局注意力机制的出现,极大地提高计算机视觉相关任务的性能,这些基础技术被多个视觉任务广泛使用。
为了能够更好地理解本文的工作,本章首先阐述了卷积神经网络相关的技术理论。其次,图像语义分割作为视频目标分割的基础,它们用着类似的网络架构,因此本章对图像语义分割的基础架构(全卷积网络)中的一些关键技术进行了介绍。此外,由于半监督视频目标分割任务属于小样本学习,且当前的方法大多基于元学习技术的思想实现的,因此本章对视频目标分割的元学习问题也进行了阐述。本章也介绍了当前最为火热的全局注意力机制,该机制作为记忆读取被用在了本工作中。最后,本章给出了用于衡量视频目标分割算法性能的评价指标以及常用的基准数据集。
..........................
2.2卷积神经网络
卷积神经网络(Convolutional Neural Networks,CNN)是一种深度学习模型或类似于人工神经网络的多层感知器,常用于处理视觉图像任务。在传统的CNN中,卷积层之后往往连接若干个全连接层,将卷积层所生成的特征图映射成一条固定长度的特征向量。一般的CNN结构适用于希望得到输入图像分类概率的任务,如分类和回归任务。一个CNN通常由五类网络层构成,分别是输入层、卷积层、激活层、池化层和全连接层(图2-1)。下面将分别对其加以详尽说明。
2.2.1输入层
输入层一般是把原始数据,或者经过预处理后的数据输入到卷积神经网络。数据类型没有具体定义,可以是数字图像,也可以是在音频识别领域中经变换处理的二维波形数据,也可以是自然语言中用一维表示的句子向量。以图像分类为例,输入的对象一般是含有RGB三个通道的图像,是一个由高宽分别为H和W所组成的三维矩阵(图2-2)。卷积神经网络通常会把输入数据经过大量卷积、池化等操作来完成特征提取和转换,最后再由全连接层完成特征汇总和结果输出。根据计算能力、内存大小以及模型体系结构的不同,输入数据的数量也可以不同。
2.2.2卷积层
卷积层是构建卷积神经网络的核心,一般用来对输入数据进行特征提取,或者通过卷积核矩阵对原始数据中隐含关联的一种抽象。卷积操作的基本原理是利用卷积核(滤波器或特征检测器)与图像特征矩阵进行划窗式的加权求和运算。如图2-3所示,对所有输入数据通过一定间隔来滑动卷积核的窗口并进行卷积运算。将不同位置上卷积核的元素与对应的输入元素进行点乘,然后再求和。最后,将结果存储在相应区域。对每个区域重复以上步骤,即可获得卷积层的输出。
2.2.3激活层
卷积神经网络中激活层的功能主要是为网络模型提供非线性建模的能力。假设一个神经网络中只含有线性卷积或者全连接运算,那么该网络只可以描述线性映射,即使提高了网络模型的深度也仍然是线性映射。因而无法有效地构建在现实环境中呈非线性分布的数据信息。若加入(非线性)激活函数,则整个深度神经网络可以获得非线性映射的学习能力。因此,激活函数是整个深度神经网络中的重要组成部分。通常采用ReLU来充当激活函数,其能够将负值限制为0,正值保持不变。
..................................
第三章 时空压缩的半监督视频目标分割算法 ............................ 17
3.1引言 ................................. 17
3.2时空压缩的半监督视频目标分割算法 ......................... 18
第四章 时空场景学习的半监督视频目标分割算法 ....................... 29
4.1引言 .............................. 29
4.2时空场景学习的半监督视频目标分割算法 ................. 30
第五章 总结及未来展望 ................ 41
5.1工作总结 ...................................... 41
5.2未来展望 ........................... 41
第四章 时空场景学习的半监督视频目标分割算法
4.1引言
基于时空记忆的方法通常采用全局匹配的策略来进行记忆读取,即通过在学习的记忆空间中获取当前帧和参考帧之间的像素级亲和或距离映射来捕获丰富的目标信息。具体地,将查询帧中提取的特征与参考帧中提取的特征逐像素进行比较,然后根据比较得到的相似性分数,将目标信息从参考帧传递到查询帧中。虽然这类方法对外观变化较大的目标具有鲁棒性且在大多数情况下效果良好,但它们忽略了目标对象的位置信息,因此当背景中存在同类语义物体干扰时,可能导致严重的错误分割(图4-1)。
软件工程论文参考
虽然最近已有一些工作被提出来解决上述问题,但是它们很少关注目标周围的场景信息。相比之下,人类在探索一个物体时使用的线索要丰富得多,从全局的角度来看待场景,不仅考虑目标物体,而且还经常注意到周围的其他物体。这些信息可以有效地帮助目标对象定位。由于同类语义物体的存在,只考虑目标的初始外观很难确定目标的位置。然而,如果利用前一帧,就可以很容易地检测到干扰物的存在。此外,尽管现有的方法使用之前预测的帧信息来更新外观模型,但该策略本身无法捕捉到周围其他物体的位置和特征。受此启发,本工作将周围场景中的物体与前景目标同等对待,通过学习时空中的场景知识,可以有效地避免干扰对象,消除目标候选区域,从而提高半监督视频目标分割的性能。
.........................
第五章 总结及未来展望
5.1工作总结
作为近年来的研究热点,视频目标分割能够识别和描述视频中的关键信息,是视频场景理解的基础,因此,也成为了行为识别、视频内容分析等任务的基础工作。随着生活中智能化的提高,该研究未来还将可能被用于自动驾驶、交通监控等更多复杂领域。本工作通过分析视频目标分割的难点和目前最先进的算法的优缺点,提出了两种不同思路和适用范围的视频目标分割算法。本文研究工作的创新点和解决的主要问题如下:
(1)针对基于时空记忆的方法无法平衡效率与精度的问题,本工作提出了一种时空压缩的半监督视频目标分割算法。在时间上,该算法自适应地选择历史帧信息,用于记忆更新。在空间上,该算法存储有利于目标对象建模的像素信息。通过以上做法,有效地降低了时空记忆中的信息冗余,提高了算法的运行效率。此外,该算法提出的高效的记忆读取方法可以进一步降低计算成本。与其基线模型相比,该算法在不损失预测精度的情况下,运行效率得到了很大的提高。与当前最为先进的方法相比,该算法在精度和效率方面可以获得了很好的平衡。
(2)针对基于时空记忆的方法无法处理同类语义物体带来的干扰问题,本工作提出了一种时空场景学习的半监督视频目标分割算法。该算法给予了周围场景中其他物体与前景目标对象同等的关注。通过获取场景中其他物体的信息可以有效地避免干扰物体,消除目标候选区域。与其基线模型相比,该算法可以有效地区分同类语义物体,缓解相似物体错误匹配的问题。此外,即使与强大的目标外观模型整合,本工作提出的场景知识网络也能提供强大的性能增益。
参考文献(略)