基于深度神经网络和近邻模型的图像自动标注

论文价格:0元/篇 论文用途:仅供参考 编辑:论文网 点击次数:0
论文字数:**** 论文编号:lw202329793 日期:2023-07-22 来源:论文网
本文是一篇软件工程论文,本文的主要工作内容如下: 1.对图像自动标注的相关背景和研究意义进行阐述,分析了图像自动标注的基本原理,介绍了 2D 卷积神经网络与 3D 卷积神经网络的基本框架,并简要介绍了几个经典的深度学习模型与图像自动标注方法。 2.将时间维度加入到卷积神经网络,对比 2D 卷积与 3D 卷积的网络结构与基础理论,比较两者之间的异同点,并展示了 3D 卷积神经网络的操作流程,进一步说明了其工作原理。

第一章 绪论

1.1 研究背景与意义
随着现代科技和互联网技术的快速发展和广泛应用,使用手机、数码相机、扫描仪等电子设备的用户群体逐渐壮大。网络社交在丰富人们日常生活的同时,用户在互联网上上传分享的图像规模也快速增长。面对如此大数据量的图像,如何有效查找符合用户需求的目标图像成了急需解决的问题。目前,主流的做法是给这些图像加上合适的语义标签,即图像标注,以供用户进行检索。以往通过人工对图像进行标注的做法会消耗大量的人工和时间成本,不适应大规模的数据集,迫切需要对图像进行自动标注。自动图像标注(Automatic Image Annotation,AIA)[1]是利用算法使得计算机能自动为图像赋予与图像语义内容相关的关键词汇,其原理是通过构建图像视觉特征和语义标签的映射关系,根据此关系对无标签图像进行标注,实现更加精确的图像检索。例如对 Corel5K数据集中的图像进行语义标注,每幅图像都被赋予了多个语义标签,如图 1-1 所示。


软件工程论文怎么写

图像自动标注技术一方面通过计算机对已标注的图像进行分析,然后能对未标注的图像进行关键词标注,在很大程度上减少了人工成本,有效缓解了因人的主观性导致的标注不准确问题;另一方面,图像自动标注的关键任务是学习标注词与视觉信息之间的相关性,有助于解决图像标注领域的“语义鸿沟”[2]问题。
.......................

1.2 国内外研究现状
1.2.1 深度神经网络相关研究
1957 年,美国神经学家 Rosenblatt[4]实现了能够模拟人类感知的机器,并称之为“感知机”,也被人称为第一代神经网络,由此开启了深度神经网络的发展之路。Hinton[5]在 1985 年使用多个隐含层来代替感知机中的感知层,并引入了反向传播算法(BP 算法)来计算网络参数。随后 LeCun[6]提出了第一个正式的卷积神经网络 LeNet-5网络,该网络结构包括两个卷积层、池化层和三个全连接层。这样的网络结构在手写数字识别上取得了良好的效果。但由于当时的计算机硬件能力的局限,LeNet-5 网络的训练需要耗费大量时间,在实际任务中表现效果并不好,所以并不能用来处理复杂的图像问题。直到 2012 年,Krizhevsky[7]在 ImageNet 图像识别大赛上提出了 AlexNet,该网络将 ReLU函数作为激活函数,从而实现了更加高效的误差反传和参数更新,有效缓解了梯度爆炸和梯度消失等问题。该网络还引入了 Dropout 方法,使得模型泛化能力更强,有效地防止了过拟合。AlexNet 将 error rate 降低了 10%左右,掀起了卷积神经网络的发展热潮。2014 年,Google 团队在 ILSVRC(ImageNet Large Scale Visual Recognition Challenge)竞赛中提出了 GoogLeNet[8],该网络加入了 Inception 模块,Inception 结构包括 1×1 卷积和多个尺寸同时卷积并聚合,在提取更加丰富的特征的同时,降低了计算复杂度,同时提高了网络的训练效率。同年牛津大学的 Oxford Visual Geometry Group研究出了更深层次的网络 VGGNet[9],该团队将卷积核全部替换为 3×3,并使用了 2×2的池化核,同时用 1 个 Conv7×7 和 2 个 Conv1×1 这三个卷积层来代替原网络结构中的全连接层,从而改变了网络模型的结构。因为去掉了网络中的全连接层,网络输出的Feature Map 大小没有了限制 ,所以网络能够处理任意大小的输入 数据。随后GoogLeNet 得到了进一步的发展,Inception 模块得到改进,网络深度加深,得到了Inception V2和 Inception V3网络。但是随着网络深度的加深,误差反传梯度越来越小,出现了梯度消失的问题,导致了增加网络层数反而网络精度更低的情况。为了有效地防止梯度消失现象的发生,2015 年微软研究院的何凯明等人提出了残差网络 ResNet(Residual Network)[10],其内部的残差块使用了跳跃连接,这样既不会增加计算复杂度,也不会增加参数,缓解了深度神经网络增加深度带来的梯度消失问题。
.............................

第二章 相关研究技术和基础理论知识

2.1 图像自动标注
随着互联网、大数据、计算机软硬件的成熟与发展,图像数据在数量和内容上迅速增长,然而在图像数据量保持高速增长的同时人们对图像数据的利用能力却没有随之增强,主要原因是计算机难以通过图像的低层视觉特征提取出可供人类理解的高层语义信息,也就是低层的视觉特征和高层的语义信息之间存在语义鸿沟问题。
图像自动标注就是减少语义鸿沟的有效途径,其是指针对图像的视觉内容,学习图像高层语义的理解,通过机器学习的方法自动给图像添加合适的语义标签或关键词的过程。基本思想是利用已标注图像集或其他可获得的信息,自动学习语义概念空间与视觉特征空间的潜在关联或映射关系,给未知图像添加文本关键词。这样就能帮助人们从海量图像数据中检索到自己感兴趣的内容,获取所需要的信息,具有重要的现实意义。
最早的图像标注方法为人工标注,需要耗费人力对图像进行标注,标注效率比较慢。随着图像数量越来越多,人工标注的方法逐渐被淘汰,随着 SVM、朴素贝叶斯等机器学习方法的产生也将其应用到图像分类与标注领域上。机随着深度学习理论的发展和计算机软硬件的不断更新,基于深度学习的网络模型-神经网络被广泛应用到图像分类和标注任务上。深度学习模型通过构建网络学习图像的视觉特征,然后对图像的深层特征进行提取,最终实现图像的分类与标注,深度学习的发展为图像自动标注任务提供了广阔的天地。
..........................

2.2 卷积神经网络
2.2.1 2D 卷积神经网络
2 维卷积提取的是单张静态图像的空间特征,简称 2D 卷积。卷积神经网络的本质是前馈神经网络,主要通过卷积运算来提取文本或图像中的关键特征。卷积神经网络具有高度的灵活性,可以根据不同的算法进行模型搭建,当搭建的网络达到足够深时,就构成了深度卷积神经网络(Deep Convolutional Neural Networks),它是计算机视觉领域中最具代表性的结构[36-37]。
最早应用的 2D 卷积神经网络模型是 1994 年 LeC un 发表的 LeNet-5 卷积神经网络结构,它在手写数字识别任务中性能优异,开启了卷积神经网络的发展热潮。该网络模型结构图如图 2-1 所示[6]:


软件工程论文参考

卷积神经网络以端到端的训练方式直接从原始输入图像中学习特征,然后进行分类工作。与传统的图像处理方式相比,消除了早期人工提取特征带来的误差,因此该模型能够更好地模拟图像特征分布,更有可能达到最优解。卷积神经网络结构包括卷积层、池化层和全连接层。其中卷积层的主要作用是提取图像的视觉和空间特征。池化层的主要作用是降低特征维度,保留主要特征。全连接层把卷积层、池化层提取出来的特征通过权值矩阵进行计算,最终经过激活层实现特征向量的非线性映射,完成数据的分类或回归任务。接下来将对 2D 卷积神经网络中的组成部分进行详细介绍。
.....................

第三章 基于深度神经网络和近邻模型的图像自动标注模型 ............................... 30
3.1 算法整体框架 .......................... 30
3.2 利用残差网络构建图像特征矩阵 ............................... 31
第四章 实验结果与分析 .................................. 47
4.1 实验环境 ......................................... 47
4.2 实验设置 .................................... 47
第五章 总结与展望 ..................... 55
5.1 总结 ....................................... 55
5.2 展望 ............................... 56

第四章 实验结果与分析

4.2 实验设置
本文选择在图像分类和语义标注领域中被广泛使用的 Corel5K数据集[53]和 PASCAL VOC 2012 数据集[54]作为图像标注实验的数据集,数据集详情如表 4-1 所示。


软件工程论文参考

通过比较本文图像自动标注与手工标注的结果,来评价基于深度神经网络与近邻模型对图像自动标性能的好坏。为了确保实验的真实性与合理性,采用其他标注方法对本文提出来的图像标注模型进行评估。借鉴文献[26]使用的度量方法,采用 mAP(Mean Average Precision)作为评估指标。mAP 是所有类别 AP 值的平均值,衡量的是模型在数据集所有类别上的整体性能好坏。AP 是指一个类别的平均精度,衡量的是模型在每个类别上的好坏。Precision 为精确率,是模型标注结果中正确样本的数目占样本总体的比例。Recall 为召回率,是模型标注结果中正确样本的数目占样本总体中正确样本数目的比例。
..........................

第五章 总结与展望

5.1 总结
身处互联网时代,图像规模呈现井喷式增长,高效的图像标注方法对图像的检索与管理有着重要意义。人工标注等传统的标注方法已经不能满足当下的需求,而众多基于机器学习与深度学习的图像标注方法大都忽视图像之间的相关性,导致提取的图像特征不能高效地进行图像标注任务。因此,本文主要对机器学习、深度学习和图像自动标注有关的理论知识进行详细研究,提出了基于深度神经网络和近邻模型的图像自动标注模型。本文的主要工作内容如下:
1.对图像自动标注的相关背景和研究意义进行阐述,分析了图像自动标注的基本原理,介绍了 2D 卷积神经网络与 3D 卷积神经网络的基本框架,并简要介绍了几个经典的深度学习模型与图像自动标注方法。
2.将时间维度加入到卷积神经网络,对比 2D 卷积与 3D 卷积的网络结构与基础理论,比较两者之间的异同点,并展示了 3D 卷积神经网络的操作流程,进一步说明了其工作原理。
3.针对图像的特征提取工作,将预训练过的残差网络模型进行迁移学习,更好地提取目标数据集中图像的各层视觉特征与特征向量,提出了使用各卷积层提取的低层视觉特征进行组合来表示图像的高级特征,通过实验验证了该方法的有效性。
4.针对近邻图像的相似性特点,将 K 近邻的思想引入到寻找近邻图像的工作中,根据目标数据集中各图像的特征向量查找近邻,从而得到各图像的近邻图像。同时为了探寻近邻图像之间的相似性,将各图像的低层视觉特征与其近邻图像的低层视觉特征进行叠加,按照近邻程度为其分配相应的权重,从而得到了近邻图像特征矩阵。
5.为了构建近邻图像间的相关特征,本文运用 3D 卷积操作对深度学习模型进行改造,提出了两种基于深度神经网络的图像自动标注模型 VGG-Neighbor 和 ResNet-Neighbor。对两种模型中使用的 3D 卷积操作的理论知识进行阐述,并分析了与改进模型之前的不同。通过对两个模型的参数和结构进行改进,在公开的图像标注数据集上进行训练和测试,与其他几种图像自动标注模型的结果进行比较,表明了本文提出的模型的有效性和可行性。
参考文献(略)
如果您有论文相关需求,可以通过下面的方式联系我们
客服微信:371975100
QQ 909091757 微信 371975100