基于文本标签的交互式草图生成图像软件工程研究

论文价格:0元/篇 论文用途:仅供参考 编辑:论文网 点击次数:0
论文字数:**** 论文编号:lw202329884 日期:2023-07-22 来源:论文网
本文是一篇软件工程论文,笔者认为结合之前介绍的知识,对本文方案的构建细节进行了详细介绍。接下来,介绍了本文所采用的生成对抗网络的相关知识与网络架构的构建流程,同时对草图模型进行了介绍并给出了一个草图扩增的技术实现。详细介绍了网络模型的建立,给出训练数据集。随后,分别对生成图像的质量,多样性进行了评估。并给出了训练数据集的详细构建过程。给定的草图图像数据集下,对本文方案的可行性进行了证明。同时介绍了方案实验的执行环境,对所使用数据集的内容与结构进行了描述,对实验内容以及评判标准进行了说明,并对实验结果进行了详细的分析。在进行多次实验后,结合理论分析给出方案的整体评价。

1 绪论

1.1 研究背景
很多时候,从一张图片中获得的信息胜过千言万语,人们可以通过制作图像来更好地表达自己的观点。制作图像时,常用的方案是先画一张草图,因为草图对于普通人甚至儿童的绘制上,不需要有任何绘画技巧。但草图传达的信息抽象不具体,且对不同的草图图像不同个体存在认知差异。另一种制作图像的方案是使用现有的图像合成一张新的图像,从而能够传达相同的内容。通常合成一张新的图像可以使用 Adobe Photoshop等常用图像处理工具,但最终合成的质量取决于选取的参考图像的场景一致性。传统方案中,如何利用草图信息进行跨域检索是研究重点。然而使用明度和纹理差距较大的图像进行合成,生成图像会产生明显的人工合成痕迹。如何结合草图图像的易操作性和真实图像的具象性,利用简单的草图获取纹理明度相似的参考图像从而进一步生成真实的图像是有挑战的任务。

随着近年来生成判别模型展现出的惊人效果,很多图像处理和计算机视觉领域中的问题如“从像素中预测像素”都得到了很好的解决。早期学习图像分布的模型包括的波兹曼机和变分自编码模型等,随着技术的不断发展改进,如今最成功生成模型是利用Generative Adversarial Nets(GAN)来生成图像的分布[1]。它的高层目标是能够区分输出图像是否是真实的,它能够自动的学习一个损失函数以满足这个高层目标。由于损失函数的存在,其会阻止生成判别模型产生模糊的图像,这使得从草图到高质量的图像成为可能,而且深度神经网络有隐含的泛化能力,这是强依赖于数据检索的方法无法比拟的。这是因为通过检索方案得到的图像无法获取图像数据集中不存在的对应于草图的实例图像。然而,GAN 训练很难稳定,因此很多工作在稳定训练生成对抗网络任务上做出一些修改。比如多尺度的生成器以及一个带有批量标准化的卷积-反卷积结构,从而能够将一个随机的向量生成一个图像。最近,条件生成对抗网络的出现使的生成的图像具有可控性,但现在对于多目标的草图生成,使用现存的生成模型会导致在多目标图像上产生了相似的纹理[2]。在本文中,本文方案试图通过学习一种模型,可以通过用户编辑的,能够轻松控制的草图生成真实场景图像,利用草图图像的易操作性完成真实图像的合成。然而,由于生成判别模型每次能够学习到的仅是符合整个数据集中图像的分布,而忽略了图像中每个实例的分布,导致生成相似的纹理,因此,如何对多个草图同时生成合理的真实图像成为首要问题。引入额外的显示辅助信息,能够使得多目标的草图生成合理的真实图像。在本文中,本文方案探究了生成对抗模型在有类别标注的多目标草图生成真实图像的可行性。

.....................

1.2 国内外研究现状
通过草图生成图像的方法由 Cheng 等人[3]提出。其方案为每张草图赋予相应的文本描述,从而使用文本描述在网络中检索纹理和颜色空间一致的参考图像,利用参考图像中的目标内容替换草图中目标,通过融合各部分目标得到合成的真实图像。但是利用文本描述在网络中检索图像对图像的标签信息是强依赖的,若出现网络中图像标签与图像不一致,会直接导致最终合成结果错误。
传统方案中,如何利用草图信息进行跨域检索是研究重点。通常通过选取固定的自然图像数据集,结合边缘像素的坐标和方向等信息作为特征,形成一个字典,然后取草图与其边缘特征表示的字典进行匹配。如何进行特征之间的匹配是传统方法中研究的重点。为了使得直接利用草图而不是通过文本检索实现准确检索,很多研究者将精力集中放在草图的特征表示和描述上。Cao 等人[4]为了摒除网络搜索中标签带来的不确定信息,选取了固定的自然图像数据集,它结合了边缘像素的坐标和方向作为特征,并形成了一个字典。取草图与其边缘特征表示的字典进行匹配,以此获取与草图描述相同的自然场景图像,然后融合各部分目标合成真实图像。通过这种方式,它不仅简化了形状特征描述,而且还节省了存储草图的空间。最后,通过反向索引实现了准确、快速的检索效果。然而,该方法对其数据集中的位置信息有严格的限制,这要求数据充足的数据集。Xiao 等人[5]将草图中直线和曲线的信息转化为形状单词,然后使用 Chamfer 匹配方法来计算形状单词之间的相似性,Wang 等人[6]利用对数据集中的图像使用目标检测算法 YOLO[7]来检测图像中的所有目标。被检测到的目标可以通过周围的方框的坐标来切割,并且图像被切割成包含单个对象的 patch,同时,对子图像与原始图像之间的映射关系进行了记录,使用区域检测算法来分割对象和背景,最后同样对得到的分割边缘,对应于草图图像进行特征表示。但是,对于一张草图,一个形状通常可以对应了多种目标参考,例如:一个圆形的图案,可以对应得到一个太阳,或者一个轮胎。为了解决这个问题,Xu 等人[8]提出细粒度的草图检索图像的方案。通过对草图图像细节的关注,实现相似草图的准确检索。可以观察到大多数的研究都集中在特征提取上[4-8],但这种方案依赖于基于草图的检索,因此检索精度直接影响生成图像质量,而且整个草图检索系统需要分步调整数据,因此效率低下。

.......................

2 相关工作

2.1 卷积神经网络
卷积神经网络是一个可以进行图像处理,语音处理等任务的神经网络结构。它适用于完成大量的图像语音识别领域的工作。常见模型包含 GoogleNet[18],ResNet[19]等。

卷积神经网络是由多个卷积层,通常连接在卷积层之后的是池化层,网络结构的最后一层通常是全连接层。卷积神经网络的结构和全连接神经网络结构不同。全连接神经网络的神经元如图 2.1 所示是一个一维的向量,而卷积神经网络每层的神经元三维矩阵形式。
..........................

2.2 生成对抗网络
2.2.1 生成对抗网络基本原理
利用生成对抗网络 GAN,使用者可以生成高分辨率的清晰图片。GAN 的网络特性使其在生成不清晰图片时,会将其判断为假,导致生成失败,而这是其他网络所不具备的。以生成鹦鹉为例:假定你需要生成一只鹦鹉,鹦鹉的羽毛颜色可以是黄色,也可以是绿色,但是必须是这两个中的某一个颜色。对于一个缺少对抗方的传统有监督生成网络,通过使用训练集中大量的真实鹦鹉图片进行训练后,会尽可能生成一个更加符合鹦鹉实际颜色的中间色,这种做法导致了最后生成的图片线条不清晰,总体观感降低。而在生成对抗网络中,则可以明确的生成黄色或绿色的鹦鹉,甚至可以借由概率分布在集合{黄,绿}中随机的选取颜色生成。生成对抗网络 GAN 是一个组合模型,由一个生成模型 G 和一个判别模型 D 共同组成。G 和 D 二者之间的零和游戏构成了生成对抗网络GAN 的目标函数。抽象来看,这是一个最优化问题,也就是极值问题。判别模型的作用在于给定输入数据,它需要给出相应判断,即判断输入数据究竟是由原始数据集产生的真实分布还是由生成模型 G 所产生的“假”分布。判别模型 D 的任务就是不断通过训练提高自己的判别准确率。对于真实数据,判别模型标记为 1;对于“假”数据,则标记为 0。相反,对于生成模型 G,其任务就是尽可能迷惑 D,使其对于自己生成的数据进行误判。这也正是生成对抗网络中对抗的含义。在实际的训练过程中,对于生成网络和判别网络的训练是交替进行的。在生成模型训练阶段,判别模型 D 是固定的,该阶段的任务是尽可能降低 D 的判断准确率。而在判别模型训练阶段,生成模型 G 是固定的,该阶段的任务是尽可能提高 D 的判别能力。通过这种直截了当的交替优化,可以使最终得到的模型具有非常好的图像生成效果。
..........................

3 基于文本标注的多目标草图生成图像的渐进式生成对抗网络 ............................ 17
3.1 数据预处理 .................................. 17
3.1.1 MS-COCO 数据处理 ............................ 18
3.1.2 判别性草图获取 ........................... 19
4 实验 ........................................ 33
4.1 实验分析 .................................... 33
4.1.1 实验设置 ....................................... 33
4.1.2 实验评价标准 .................................. 33

4 实验

4.1 实验分析

图像语义分割可以分割对象的区域并识别它们的内容。因此,高质量的实例对象和准确的轮廓信息可以帮助图像分割图像更加准确。在 Isola 和 Zhu 等人的工作,使用分割结果作为评测生成图像的质量,为了进一步评估我们的模型,我们使用 MS-COCO 数据集上的预训练 Mask-RCNN [40]模型对各个生成器生成的图像进行分割,详细的 Mask-RCNN 网络在相关工作中做了介绍,网络结构如图 4.2 所示。最终的评价标准是利用分割结果 IOU 分数作为我们的评估结果。

...........................

结论

当我们在制作一张图像时,常用的方案是预先给定一张草图,对于草图的绘制是不需要有任何绘画技巧。但通常草图传达的信息抽象不具体,例如:给定一个圆形的草图,他可能代表了盘子或者是太阳,而且对不同的草图图像不同个体存在认知差异。另一种制作图像的方案是使用现有的图像合成一张新的图像,从而能够传达相同的内容。如何结合草图图像的易操作性和真实图像的具象性,利用简单的草图获取纹理明度相似的参考图像从而进一步生成真实的图像是有挑战的任务。在本文中,我们使用 MS-PGAN 进行多实例草图生成图像,利用方案中的实例生成器,将实例草图约束其类比,从而生成对一个类别的真实图像,然后为了将现有的图像合成一张合理的包含多个实例的真实图像,我们构建了图像生成器,它能够将实例生成器生成的实例图像融合,最终得到合理的生成图像。这样可以保留生成图像中的纹理和颜色。此外,它可以在图像中生成合理的背景。我们的 DSA 技术可以防止我们的网络过度拟合并生成更可靠的图像。实验结果表明,我们的渐进网络比直接使用多草图生成更合理的图像。首先阐述了本文的研究背景,介绍了草图生成图像概念,优点与应用场景,指出了草图生成的重要性。然后介绍了利用现有模型生成趋于一致纹理的产生原因,引出了渐进式生成模型,提出了本文的研究重点。通过对相关工作的总结分析,指出了本文研究的必要性,接下来介绍了基于检索的草图生成图像模型,然后介绍了利用生成对抗网络在不同条件下的生成相关知识,梳理了现有多阶段的对抗生成网络的工作以及解决的问题,以及详细描述了各个工作与我们工作之间的差异。结合之前介绍的知识,对本文方案的构建细节进行了详细介绍。接下来,介绍了本文所采用的生成对抗网络的相关知识与网络架构的构建流程,同时对草图模型进行了介绍并给出了一个草图扩增的技术实现。详细介绍了网络模型的建立,给出训练数据集。随后,分别对生成图像的质量,多样性进行了评估。并给出了训练数据集的详细构建过程。给定的草图图像数据集下,对本文方案的可行性进行了证明。同时介绍了方案实验的执行环境,对所使用数据集的内容与结构进行了描述,对实验内容以及评判标准进行了说明,并对实验结果进行了详细的分析。在进行多次实验后,结合理论分析给出方案的整体评价。

参考文献(略)

如果您有论文相关需求,可以通过下面的方式联系我们
客服微信:371975100
QQ 909091757 微信 371975100