第一章 绪论
1.1 研究背景与意义
随着互联网的普及,海量的图像和视频信息被上传到网上,电脑、手机、iPad 等设备每天产生大约 28PB 规模的数据,若要从规模这么庞大的图像数据中找到用户所关注的图像,这是非常困难的。那么,如果让计算机能够正确理解图像的内容,将图像这些非结构化信息转换为语言描述的信息,进而生成对应的自然语言,对用户来说就可以极大减少不相关的图像数据,对计算机来说可以快速检索和分析图像数据,对信息技术的发展会起到非常巨大的推动作用,图像描述算法能够让计算机理解图像所表达的场景内容,这是人工智能时代最关键的技术之一。
近些年,随着人工智能技术的迅速发展,计算机在解决图像分类、目标检测等问题时取得了比以往更好的效果。进一步,为了理解图像中的物体与物体之间的联系,而不是单纯识别图像中的各个物体,出现了图像语义技术,该技术融合了图像信息以及自然语言的信息,是一种多模态融合的技术,目的是让计算机具有人的思维,从人的角度去理解图像中主要物体之间的联系,以及他们与周围物体的关系。
软件工程硕士论文参考
1.2 国内外现状研究
2014 年,Kiros [6]等人首先提出了基于深度神经网络的图像描述算法,通过融合图像和语言两种不同模态形式的信息生成图像描述文本。Mao 等人[7]提出了多模态递归神经网络(multimodal RecurrentNeural Network m-RNN)的方法。该方法通过卷积神经网络提取图像特征以及递归神经网络编码文本信息,利用多模态层的融合去构建整个图像描述模型。Vinyals 等人[8,9]提出了一种编码器-解码器的模型结构,卷积神经网络(Convolutional Neural Network,CNN)作为编码图像信息的编码器,长短期记忆网络(Long-Short Term Memory,LSTM)作为解码文本信息的解码器。该网络模型的缺点是图像信息会随着时间的推移而逐渐消失,这导致往后时刻的输出单词仅仅依靠前面时刻的历史语义信息来生成,输出的单词可能对应不上图像的内容,进而导致生成的描述语言不能准确表达图像的场景内容。Jia 等人[10]针对 Vinyals 的问题提出了 gLSTM,在每一个时间步中增加图像的语义信息作为 LSTM 的输入。在这之后 Zhou 等人[11]提出了基于文本条件机制的方法,该方法可以使单词在每个时间步中更好的利用图像的指导信息,进一步提高模型的性能。
Xu 等人[12]提出了一种基于注意力机制的图像描述模型,通过在编码器-解码器结构中引入注意力机制模块,能够让模型在生成单词的每个时间步更加关注图像的某个区域,而不是全局区域,这样能更好的引导模型生成更加准确的单词。Chen 等人[13]提出了空间和通道敏感注意力机制(Spatial and Channel-Wise Attention,SCA ),该模型在每个时间步中充分利用特征图的通道信息以及空间信息来生成对应的单词。Lu 等人[13]指出注意力机制模型在每个时间步中都会关注图像中的某个区域,而一些单词是无法对应到图像的具体区域的,提出了(Adaptive Attention)自适应注意力,在不同时间步中引导模型去关注图像的区域特征信息还是历史语义信息,来生成下一个时间步的单词。Anderson [14]等人提出了通过Faster-RCNN 来提取图像特征,而不是通过 CNN 网络提取图像特征。该方法可以保留图像中关键物体的全局特征,为图像描述算法提供更有效的视觉特征信息。实验表明这种特征优于 CNN 提取的特征,因此在图像描述算法中被广泛应用。
.......................
第二章 相关理论与技术研究
2.1 循环神经网络
循环神经网络(Recurrent Neural Network,RNN)是处理语言信息的一种神经网络算法,该模型可以对时序序列特征进行抽取,通过内部状态来保留历史时序序列的信息,在每个时间步中可以通过隐藏状态来预测下一个时间步的单词序列。
软件工程硕士论文怎么写
......................
2.2 Transformer
Transformer 模型是一种完全基于注意力机制的网络模型,在自然语言处理中,很多预训练语言模型采用 Transformer 为基础结构,通过大型的语料库训练预训练模型,并将它应用于下游任务中,这种处理模式取得了很大的成效。Transformer 整体结构图可以用图 2-2表示,从图中可以看出模型通过堆叠基础的注意力模块来构造模型本身,它摆脱了传统RNN 沿着时间步串行训练方式,采用并行训练方式来加速模型的收敛速度。对于存在长距离依赖关系的句子,Transformer 可以有效地处理单词之间的距离依赖,这种建模远距离单词依赖关系的能力要优于传统的 RNN 模型。
编码器:编码器由 N 个结构相同的编码器层堆叠构建。每个编码器层由多头注意力(Multi-Head Attention)模块和前馈网络层(Feed Forward)组成,模块间的数据流动形式采用残差连接并且加入了层归一化计算模块。
解码器:解码器由 N 个结构相同的解码器层堆叠构建。解码器层由掩膜多头注意力(Masked Multi-Head Attention)、多头注意力(Multi-Head Attention)和前馈网络层(Feed Forward)组成,其中掩码多头注意力模块的主要作用是通过一个掩膜矩阵让解码器不能关注到当前时刻之后的单词,而只能关注到当前时刻之前的单词。解码器层中,模块之间的数据流动方式采用残差连接,并且加入了层归一化计算模块。
......................
第三章 基于混合注意力分布和词嵌入分解矩阵的图像描述模型 ..................... 15
3.1 引言 ............................... 15
3.2 算法描述 .......................... 16
第四章 基于先验知识 Transformer 的图像描述模型 .................. 30
4.1 引言 ................................ 30
4.2 算法描述 .................................... 31
第五章 总结与展望 ................................ 42
5.1 工作总结 ........................................ 42
5.2 未来工作展望 ................................ 43
第四章 基于先验知识 Transformer 的图像描述模型
4.1 引言
近年来在自然语言处理领域(Natural Language Processing,NLP)中出现了很多预训练语言模型,比如 BERT、GPT、XLNet 等,这些模型的基础结构都采用了 Transformer。将这些模型运用于下游任务时,只需要根据特定任务对预训练语言模型添加一些层,就可以达到很好的效果。在图像描述算法中,可以将图像描述问题看作机器翻译问题,也就是将图像场景内容翻译成一句简短的描述文本。因此可以很好地采用 Transformer 结构来编码图像内容信息,并解码出对应的单词出来。传统 RNN 由于当前时间步的 ht 需要前一时刻的 ht-1 信息,RNN 的整个训练过程是串行训练的,训练时间较长。而 Transformer 则通过较大规模的并行计算以及它天然的结构来提升模型的性能。很多实验研究表明,Transformer的整体性能要优越于 RNN。Transformer 结构中最核心的模块就是多头注意力机制,它将待编码的向量信息在多个子空间内进行自注意力计算,来提升某个位置的向量相对于其他向量的信息表达能力。也就是说,如果一些位置上的单词或者某些图像区域之间的信息有非常大的相关性,那么这些单词或者图像区域经过编码器后得到更具表达能力的单词或者图像区域,编码出的向量考虑了自身和其他向量之间的相关程度。整个 Transformer 结构是通过堆叠多个子层形成的,子层的结构包含了多头注意力机制,层归一化以及残差连接等,这种计算方式可以很好地捕获向量之间的特征,尤其在解码器端获得了由编码器提供的非常有效的信息来指导其生成对应的单词,进而提升了模型的整个性能。
但是 Transformer 在进行自注意力计算时缺少对图像区域信息的先验知识( Prior Knowledge),即在自注意力计算之前模型就有了对图像区域的额外编码向量。这些额外向量编码了对图像信息的“初步认识”,而原始 Transformer 是没有这些“初步认识”的,只能通过具有多层结构的编码器来“认识”图像信息。具有先验知识的 Transformer 可以更好地去“认识”图像,再经过多层的多头注意力机制就可以编码出比原始 Transformer 更具表达性的向量,进而提升编码器端编码输入向量深层信息的能力,也提高了解码器端解码单词的能力。因此,本章提出了一种具有先验知识的 Transformer(PK-Transformer),将它嵌入到编码器中编码图像区域信息,可以得到更加有效的图像特征向量。由于考虑到图像描述数据集中真实的描述文本涉及到的单词数量不多,解码器没有利用原始 Transformer 中解码器的结构,而是采用了可以很好地编码较短时间步历史信息的 LSTM 模块。
.............................
第五章 总结与展望
5.1 工作总结
近年来,随着深度学习技术日益发展,图像描述算法从使用传统的基于语言模板等方法到基于卷积神经网络和递归神经网络相结合的神经网络算法,又深入到基于 Transformer结构的注意力机制,这一系列的研究中,模型的复杂程度越来越大,模型对多模态信息融合的能力得到了很大提升,图像描述算法的性能得到了非常大的提高。
本文在原有的图像描述算法的基础上,提出了多种有针对性的改进方案,并在图像描述标准数据集 MSCOCO 数据集中进行了实验验证,表明了所提出的模型相比于基线模型有更好的性能,并且能够生成更加准确的描述文本。本文主要研究了混合注意力分布,词嵌入分解矩阵以及基于先验知识 Transformer 模型的应用,主要的研究内容总结如下:
(1)针对原始 Transformer 中多头注意力机制的计算没有考虑到多个子空间之前的相关性程度的问题,本文提出了混合注意力分布模块,将多个子空间之间的潜在关联考虑进来,动态的选择每个子空间对整个模型的贡献程度,进而有效地在每个子层中建模对输入信息的表示,并输出更具表达能力的编码向量来提供给解码器生成对应的单词。除此之外,针对 Transformer 结构所包含的训练参数大的问题,本文提出了词嵌入分解矩阵的方法,该方法可以有效的降低模型的参数量,单词与单词之间的相关性也得到了增强,并且能够降低模型的计算复杂度,加快模型训练的收敛速度。为了验证所提出的模型,本文在公开数据集 MSCOCO 中进行了实验,在两种训练策略上,验证了所提出的模型相比于基线模型具有更好的性能,训练速度也比基线模型更快。
(2)传统 Transformer 中编码器中的键矩阵和值矩阵是输入的图像区域信息经过投影矩阵得到的,这样所得到的键矩阵和值矩阵只是编码了图像区域信息的特定特征,并没有把一些额外的信息编码进来。为了更好的编码训练数据集中的一些额外且有效的信息以及对象与对象之间潜在联系,本文提出了先验知识 Transformer 来解决这一问题。通过引入额外的向量来存储这部分额外的信息,与键矩阵和值矩阵一起组合成更具表达能力的特征矩阵,并一同参与多头注意力机制的计算,这样在训练过程中引入的额外向量会不断学习图像信息的潜在特征,编码器的不同子层中学习到的特征也不一样,最后结合不同子层的输出来提供给解码器更加丰富且全面的信息来生成对应的单词。本文在公开数据集中进行实验验证,验证了所提出的模型在生成的描述文本中比基线模型更加准确,更加符合真实的图像描述语句。
参考文献(略)