第一章 绪论
1.1 研究背景及意义
当今信息技术迅速发展,大量多媒体数据呈爆炸式增长,如文本、图像、视频、音频等多模态数据在网络上不断地增长。在大数据的时代,检索技术对于海量多模态数据信息处理是非常重要的。现如今最常见的检索技术包括两种:文本检索和图像检索。基于内容的文本检索方法是利用文档及其部分之间的语义连接,以及查询和文档之间的语义连接进行检索的。大多数基于内容的文档检索系统使用反向索引算法。图像检索,目前常见的有两种方法,一种是利用关键词寻找相似的人工标注过的图像,这种方法实际上还是属于文本检索的范畴,其准确性受人工标注的影响;另一种是基于内容的图像检索,这一方式的输入不再是文本关键词,而是图像的视觉特征,如图像的 GIST 特征、颜色直方图特征等,然后通过计算查询数据库中图像和检索图像的距离,寻找与检索样本相似的样本。随着信息技术的发展,在网络上出现了越来越多不同模态的数据,通常为了更生动形象地描述一个物件或事件,人们会使用多种模态的数据,例如淘宝上的商品,不仅会有文字描述介绍,还会有照片及视频展示,从而消费者可以更准确地了解商品的一些细节信息。
目前无论是图像检索还是文本检索大多数还是应用于单一模态的数据,但人们在搜索某一物品或事件时,期望能够得到多模态数据的描述,从而能够更加详细、更加准确地获取这一物品或者事件的信息。因此,在处理海量数据信息时,有效地进行跨模态检索是一个越来越受人们重视的研究主题。跨模态检索有两个主要的任务:
(1)当查询数据为文本时,检索出的是与文本语义相关的图像数据,图像内容通常是查询文本的相关描述;
(2)当查询数据为图像时,检索出的是与图像存在语义相关的文本数据。当前跨模态检索面临的挑战主要有两个:一个是不同模态的数据结构是异构的,无法直接比较其相似性;另一个是数据规模大,如何进行快速高效的检索是一个有待解决的问题。对于大规模数据检索高效性的问题,近似最近邻检索是一种有效的解决方法,而在近似最近邻检索中一种有效的算法就是哈希方法。哈希方法最基本的思路就是将高维数据映射到相应的二值码上,存储这些二值码的空间就称为汉明空间,这种方法不仅能够减少存储消耗,而且能够有效提高检索的效率。因此,可以将哈希方法应用到跨模态检索上,这样就能够有效地改善跨模态检索面临的大规模数据检索的问题。将不同模态数据映射到一个统一的汉明空间需要学习哈希函数进行投影,在学习哈希函数时需要保持原始数据的相似性结构,也就是说相似的数据点能够映射到相似的哈希码上,并且在这个统一的汉明空间中,不同模态数据之间的相似性可以直接计算,这样不仅解决了不同模态数据的异构性,并且在进行检索时,测量查询点与被检索数据之间的相似性只需要简单的二值运算,提高了检索的速率。目前跨模态哈希检索技术研究在大数据时代是一个热门领域。
................................
1.2 国内外研究现状
近几十年来,网络上出现海量的多模态数据,例如图片、文本、视频、音频等各种各样模态的数据,并且经常在描述同一个主题内容时会采用多种模态的数据。例如,一个网页一般来说不仅包含文本描述,而且,可能还会有图片或者视频来展示说明网页上同一个内容,这些数据就被称为多模态数据。随着多模态数据的爆炸式增长,对于用户来说,有效并且高效地检索到感兴趣的信息变得比较困难。目前已有的检索技术大多数都是适用于单模态检索的,例如文本只能检索出相关的文本或者图像只能检索出相关的图像。在当今移动设备和社交网站迅速改变人们检索信息方式的大环境下,如果用户能将手中所掌握的任意模态的数据作为查询将会更加方便。比如在参观长城时,能够拍照,并且希望能够通过这张照片检索出关于长城的文字或者视频介绍,传统的单模态检索达不到人们对信息检索的要求,跨模态检索是基于查询和检索结果是不同的媒体类型数据的场景所设计的一种检索方法,因此,跨模态检索能够满足人们对信息检索更高的需求。在大数据时代,如何有效地进行跨模态检索是信息检索这一领域的研究人员所面临的最基本的挑战,由于哈希方法的低存储和高效性,跨模态哈希方法是一种高效的检索方法,能够有效地改善跨模态检索的效率问题。
............................
第二章 跨模态检索技术
2.1 近似最近邻检索
当今时代随着信息技术的快速发展,多媒体数据呈爆炸式增长,因此如何处理这些丰富的数据信息使得人们便捷地获取有效的信息非常重要。最近邻检索技术也称为相似性检索,这一技术在信息检索中起到很重要的作用。信息检索是数据处理的一个重要技术,例如在过去十几年,信息检索领域中的一个研究热点就是基于内容的图像查询(Content-Based Image Retrieval,CBIR),这种方法的主要思路是根据相关的图像的一些属性特征,在数据库中能够基于索引结构查询出与其具有相似内容的图像,而最后在数据库中查询相似的图像,实际上还是对图像进行最近邻检索。
最近邻检索也称为最佳匹配问题,它的主要目标就是找到与查询点最近的点,即最近邻,而这个最近邻的定义是根据在查询数据库中的一定的距离测量来定义的,与其相关的应用有分类任务、回归任务和检索任务,比如在 kNN 算法中,先把想要预测分类的点找出来作为查询点,然后根据距离在查询数据库中查找与其最近的 k 个近邻,最后对这 k 个近邻进行统计,观察这些近邻属于哪一类别最多,则就能够判定该查询点属于哪一类。如果查询数据库特别大,那么在进行最近邻检索时会很慢而且消耗会很大,因为找到特别精确的最近邻需要计算很多样本点之间的距离并且进行比较。因而,又提出了一种比较高效的检索方法,叫做近似最近邻。
近似最近邻检索(Approximate Nearest Neighbor,ANN)在很多实际应用中能够达到比较好的检索效果,可以代替精准的最近邻检索方法应用于实际检索中,ANN 不仅缩短查询时间而且加快检索速度,近年来的近似最近邻检索的相关研究主要分为两大类。
...........................
2.2 基于哈希学习的近似最近邻检索
因为目前多媒体数据急剧增长,这就要求检索系统具有高效性,因此提出了哈希方法加快检索速度,并且减少存储空间。最初大多数的哈希方法只包含一种类型的数据,被称为单模态哈希方法,例如图像检索[28]。跨模态哈希的目的是生成至少两种类型数据的哈希码,将不同模态的数据映射到一个公共的汉明空间中进行相似性检索。
2.2.1 单模态哈希学习
哈希方法最基本的思想就是将真实值的特征向量映射到紧凑的二值码上,并且使得语义相似的特征表示具有相似的二值码。单模态的哈希方法可以分为两类:数据独立哈希方法[29]-[31]和数据依赖哈希方法;数据独立哈希方法是随机将样本点映射到特征空间中,具有代表性的数据独立哈希方法有局部敏感哈希[8]以及它的核形式扩展[38][39],数据依赖哈希方法是利用训练数据学习到有效的哈希函数,代表性的数据依赖哈希方法包括迭代量化[10]、时序投影学习哈希[40]、有监督的离散哈希[41]以及深度哈希[42][43]。尽管这些方法在很多大规模相似检索系统中有较好的效果,但大多数方法都只是应用于单模态数据,即查询样本和数据中存储的样本属于同一类型,这不适用于跨模态检索。
2.2.2 跨模态哈希学习
不像单模态检索,跨模态检索主要的目的是从不同多媒体数据中检索到不同模态的数据结果,并且这两种类型的数据能够有相似的语义。跨模态检索主要有两个任务,即图像检索文本和文本检索图像。由于哈希方法能够加快检索速度和减少存储空间,基于哈希的跨模态检索技术近年来越来越受到重视,目前将跨模态哈希检索方法主要分为两种:有监督的和无监督的。典型的有监督的跨模态哈希方法有跨模态相似语义哈希[44]、基于核的有监督跨视图哈希[45]、可预测双视图哈希[46]、语义关联最大化哈希[47]以及语义保留哈希[13]。跨模态相似语义哈希通过保留模态间的相似性和增强特征分解操作来学习哈希函数,基于核的有监督跨视图哈希通过保留在核空间视图间的相似性来学习哈希函数。可预测双视图哈希将双视图序列进行映射,保证了在原始空间中相似的数据点映射到相似的哈希码上。语义关联最大化哈希利用语义标签最大化语义关联并且利用时序方法进行迭代优化。语义保留哈希利用概率分布将汉明距离转换为隶属度矩阵,然后最小化概率分布的 KL 散度来学习最优的哈希码。
...............................
3.1 系统功能概述........................................17
3.2 系统功能需求分析..........................................17
第四章 跨模态哈希检索系统的设计..................................21
4.1 系统设计...................................21
4.2 模块设计.................................24
第五章 跨模态检索模块的实现....................................33
5.1 实现过程..........................33
5.2 系统运行结果验证与分析..............................34
第五章 跨模态检索模块的实现
5.1 实现过程
跨模态检索模块是该检索系统最主要的模块,其实现的检索功能是系统的主要功能,跨模态检索模块为用户提供跨模态检索功能。
因为跨模态检索模块的输入是提取好的特征,因此在跨模态检索模块的实现之前,一个重要的部分是在输入模块中对用户上传的数据进行特征提取。
在输入模块进行特征提取,对文本文件的特征提取,采用 LDA 算法提取文本的主题模型。首先需要对文本特征做预处理,将文本中一些不常用的词或者是低频词去掉,对文本进行预处理之后,然后再根据 LDA 算法对其进行特征提取。采用 SIFT 算法对图像特征进行提取,然后用词袋模型(BOW)描述图像,SIFT算法属于局部特征抽取法,并且在进行特征提取时,能够保证图片的位置、尺寸和旋转不变。该算法还有一个优势就是适用于大规模的数据集,针对大规模的数据集,能够高效地提取图片特征。由于该算法需要的图片类型是 pgm 格式,因此在特征提取之前,首先应该将图片的 jpg 格式转换为 pgm 格式。首先对该图像提取 SIFT 特征,得到 128 维的描述子矢量,对提取的特征进行 k-means 聚类,得到 k 个聚类中心作为视觉单词表,最后对每副图像的每个 SIFT 特征计算它与单词表之间的距离,便可得到这幅图像的码本。对用户上传的原始图片和文本数据进行特征提取之后,得到特征向量表示数据的特征,得到相应的数据集。
..........................
6.1 总结
参考文献(略)