1绪论
面对数量如此巨大、种类如此繁多的多媒体数据,如何对其进行充分挖掘和利用是目前人们迫切需要解决的问题,音视频内容分析,即对音频、视频等多媒体数据所表现出的听觉或视觉内容进行低层特征、结构信息、语义特征等不同层级的合理描述,为其奠定了基础。其中,低层特征(如:声调、颜色、纹理等)直接给出了音视频数据的基本属性,但是却无法表征用户对事物的语义认知。音视频标注,通过实现从低层特征到高层语义的映射来对某种结构单元(如:音频片段、视频镜头等)建立语义信息索引(如:关键词序列、语义概念等),则有效弥补了这种局限,为人们进行多媒体数据的存储、传输、检索、过滤等管理提供了便利,并在教育、安防、娱乐等领域得到了广泛应用,是当今的研宄热点。鉴于音视频标注的重要性和人们对其发展的迫切需要,国内外一些科研机构和公司对此展开了多方面的研究。其中,在国际上,有美国哥伦比亚大学、南洋理工大学、新加坡国立大学、微软亚洲研宄院、柯达研究实验室等著名的科研院所;在国内,中科院计算所、香港城市大学、清华大学、中国科技大学、浙江大学、复旦大学、北京交通大学等机构也进行了深入研究。
........
2基于语义关联上下文的音频标注
2.1引言
考虑到如上所述的音频语义特征层所体现的两种语义关联上下文,本文分别围绕多标记的音频概念检测和关键词检出两个方面展开研究。一方面,以基于概念关联的上下文为出发点,提出关联主题混合高斯模型,在混合高斯模型框架下,利用概念关联实现更为准确的音频概念检测;另一方面,从语音产生的上下文背景,提出基于主题信息反馈的关键词检出算法,该算法以关键词检出为出发点,尝试利用文本主题对人脑高层信息进行建模,并将其作为高层语义上下文与语音本身的关键词检出结果相结合,从而更准确的描述语音数据的主要内容。
2.2基于关联主题混合高斯模型的音频概念检测
这一流形正则项通过在图上添加相似性约束,实际上是基于流形假设建立了这样的关系,即图上相邻的点往往具有相似的条件概率分布,从而试图利用数据自身的结构特性来更好的实现模型建模和学习。由于机器学习所给定的研究对象通常都满足“散布在或接近于欧式空间的一个低维流形”这一假设条件,因此,基于图的流形正则化在实际研究中得到了广泛的应用,包括直接将其作为目标函数通过利用标注与未标注数据之间的相似性来实现标注信息的传递,在基于语义相似和视觉相似的图上约束图像主题分布以实现基于半监督的图像标注通过构建社交网络来进行作者主题分析,均有效地提高了学习性能。基于这一思想,本文从概念分布的内在几何结构出发,构建基于图的流形正则项,并将其加载在主题混合高斯模型的目标函数上,从而得到能反映流形的内在结构即概念关联特性的关联主题混合高斯模型。
3基于概念关联估计的视频标注优化..........47
3.1引言.........47
3.2问题描述及分析........48
4基于时间关联上下文的视频标注........71
4.1引言....71
4.2相关模型.......72
5基于多模态关联上下文的视频标注......99
5.1引言......99
5.2多模态连续概率潜在语义分析............100
5基于多模态关联上下文的视频标注
5.1引言
针对视频的这种多模态关联上下文,本文以连续概率潜在语义分析为出发点,提出多模态连续概率潜在语义分析,并将其用于上述的基于分类的视频标注来间接实现音视频信息融合。该多模态模型实际上提供了一种文档元素是由多种模态连续特征表示情况下的潜在语义分析方法,在此基础上,本文就将多模态融合问题转化为这种多模态元素的建模问题。除此之外,考虑到第四章所探讨的元素关联问题,本文进一步对多模态连续概率潜在语义分析模型进行扩展,同时对多模态元素以及元素之间的关联进行描述,并将此时得到的图正则化的多模态连续概率潜在语义分析模型应用至基于分类的视频标注中,以实现对包含多模态和时间一致性在内的视频上下文特性的同时建模。
5.2多模态连续概率潜在语义分析
根据4.2.1节对概率潜在语义分析模型的介绍可知借助潜在语义空间的引入,概率潜在语义分析将原本由多个单词表示的文档最终用少量潜在主题来描述,实际可以作为一种多模态融合方式,但是由于其面向离散量,因此仍会存在由于特征量化所引起的信息损失等问题。虽然连续概率潜在语义分析的提出将该模型的应用范围扩展至了连续特征空间,但基于连续模型的多模态融合方式并未得到讨论。针对这一问题,本文立足于连续特征空间,提出一个多模态连续概率潜在语义分析模型,将多模态融合转化为对“用来自多种模态的连续特征描述同一个文档元素”的多模态元素的建模问题,并如图所示应用至基于音视频融合的视频分类中。
........
6总结与展望
随着计算机和网络技术的快速发展,越来越多的音频、视频等多媒体数据充斥在人们的日常生活当中,如何将这些数据所表达的内容转化为人们易于理解的文本描述是信息存储、传播和交流的核心。音视频标注是实现这一目标的有效方法,本文以音视频内容不同表现形式中所隐含的上下文信息为出发点,重点针对语义特征层的语义关联上下文、视频结构信息隐含的时间关联上下文、低层特征中的多模态关联上下文的挖掘、建模、利用等问题展开探索与研究,以期改善和提高音视频内容标注性能。本文的主要研究成果及创新点总结如下:针对现有音频标注中语义关联上下文利用不足的问题,提出基于关联主题混合高斯模型的音频概念检测算法,并探索了基于主题信息反馈的关键词检出。不同于大多音频标注研究中对学习算法本身的关注,本文利用义特征层所隐含的语义关联上下文来提高标注性能。首先,对于面向一般音频的多标记的音频概念检测来说,常见的二类分类器集成方法忽略了概念之间的依赖关系,鉴于此,本文提出关联主题混合高斯模型,在混合高斯模型框架下,将语义概念之间的上下文关联通过图进行建模并嵌入至模型参数估计过程中,自然的实现了通过易检测概念来加强对难检测概念的检测,其性能明显优于传统的检测方法。
............
参考文献(略)