1 绪论
1.1 研究背景及意义
当今社会,互联网技术快速发展,越来越多的文本数据在网络上不断扩张。为更加迅速的从文本数据中获取针对性知识,进行文本类别预测便成为了一项具有挑战性的任务。文本分类的目标就是学习一种分类模式,该模式可以自动地将任意给定文档分配到指定的类别中去[1]。文本分类被广泛应用于情感分析、信息检索、用户推荐等领域[2],具有丰富的研究价值。
由于文本数据是一种非结构化数据[3],如何对文本数据进行存储和表示便成为了需要首先解决的关键问题。目前主流的文档表示方法有基于向量空间模型(VSM)的文档表示和基于词嵌入(Word-Embedding)的文档表示[4]。其中词嵌入的核心思想是利用词语所在固定窗口大小的上下文来对当前词语意义进行表征,通过训练将词语映射至固定维度的语义空间中[5]。由于这种方法存在训练速度慢、无法解决一词多义问题等缺陷,在特定领域和训练数据量较少的情况下,VSM 文档表征方法则更能体现优势。
词袋模型(Bag-of-Words)由于其简单性和通用性,是目前最受欢迎的 VSM 文档表示方法之一,但该模型不具有语义依赖的特点,并且在向量空间中具有非常高的维度[6]。如果不对文档进行处理,使用原始的文档表示进行分类、聚类等任务,则会出现速度慢、效果差等问题。所以,如何有效地进行文本特征选择和特征扩展,成为了许多专家与学者的研究重点。在词袋模型中,特征词语在文档中的位置信息会被忽略,如何将词位置信息添加到特征选择过程中去,也是一个具有研究意义的问题。
..........................
1.2 国内外研究现状
1.2.1 词频与词位置信息
词频是文本数据的重要特征信息,学者们对词频分布规律及其在各个方面的应用进行了深入研究。Ali Mehri 等人在《圣经》的一百种语言上对齐普夫定律(Zipf’s)进行了验证,得到了不同语言中词频与词秩间的反比关系[12]。罗燕等人提出了一种基于词频统计的文本关键词提取方法,通过齐普夫定律推导出了同频词数的表达式并在中英文文本数据集上进行了验证[13]。Flavio Chierichetti 等人在词频幂律分布的基础上提出了一种生成模型,解释了为什么在实际中,齐普夫定律在对数函数图像上并不是一条直线而是一条凹陷的曲线[14]。刘海峰等人提出了一种基于词频分布信息的卡方统计文本特征选择方法,使得特征项频数信息得到了有效利用[15]。Deqing Wang 等人提出了一种基于 t-检验的特征选择函数,用于度量特定类别和整个语料库中词频分布的多样性[16]。董苑等人提出了一种基于语义词典和词频信息的文本相似度度量算法(TSSDWFI) [17]。
词位置信息的提出,可以弥补词袋模型忽略词语位置信息的缺陷。Wen-tau Yih 等人提出了一种多文档摘要生成策略,该方法利用词频和词位置信息为特征分配得分并使分数总和最大化[18]。Jia Song 等人提出了一种基于类别区分和特征位置信息的中文文本特征选择方法,并将其应用于分层文档分类[19]。Hongze Zhu 等人提出了一种基于改进位置词概率(PWP)的微博新登录词提取算法,提高了复合词提取的效果[20]。Abu Shamim Mohammad Arif 等人通过考虑一个词在文档中的位置值,提出了一种基于随机游走模型的信息检索方法[21]。Yueheng Sun 等人将文档拆分成标题、摘要和正文三部分,并为不同位置的词赋予不同的权重,提出了一种改进的术语加权方法[22]。
...........................
2 基于词频与词位置信息的类别表征能力计算方法
2.1 词频性质分析
将词频统计技术应用于特征选择的关键在于,所选特征的依据一定要作用于全局范围,而非某一篇文档。因此,应用于特征选择的词频,应该是整个语料库中的词频统计量,而不是某一篇或某几篇文档中的词频。在全局词频统计量的基础上,探究词频对类别的表征能力,从而达到过滤不重要特征的目的。
2.1.1 词频相关定义
词频(Term Frequency)即某个词语的出现次数。通常意义上的词频是指在一个给定文档范围内,某词语出现的次数。但广义上的词频,也可以用于描述其它范围,例如某一页面、某一著作或某一语料库。
池云仙等人利用齐普夫定律和最大值法推导出了文本文档中同频词数的完整表达式和各频次词语的分布规律,并进行了实验验证,得出频次为 1 和 2 的词语分别约占不同词数的 50%和 17%,并证明了在文本文档中,特征词语与所在文档的关联度随词语频次的降低而减小[25]。但文档与类别的范围不同,词文档频数与文档关联度之间的正比关系无法应用于类别层面,将其直接用于全局的特征选择不具有说服力,因为词表中同一词语在不同的文档中拥有不同的重要程度,能表征一篇文档也并不能代表可以表征整个类别。
尺度推绎(Scaling),也被称为尺度转换,是生态学中的概念,指的是在不同时间或空间上尺度间信息的转化。把小尺度上的信息转换到大尺度上的过程就叫做尺度上推,这将使得已有知识在更宏观的层面上得到了体现。
..............................
2.2 词位置信息
传统的基于词袋模型的文本表示方法忽略了词语在文本文档中的位置信息,这是不合理的,因为人们在进行文档的编写工作如新闻编辑、观点表达时,通常会将能够表达自身看法的词语安排在文档的靠前位置,这样更能够吸引读者的兴趣。许多学者和专家将词位置信息应用于特征选择、信息检索和关键词提取任务中,以此来弥补词袋模型忽略词语位置信息的缺陷。
2.2.1 词位置信息的应用及分析
语言情报学中认为,在新闻数据的分类任务中,出现在标题中的词是最有用的,其次是出现在第一自然段中的词,最后是正文部分中剩余的其他词[63]。这个结论符合人的直观感受,在深度学习的注意力模型中也借鉴了人类的视觉注意力机制,对于文本数据来说,人们会将注意力更多地投入到文本的标题以及文章首句等位置。
依据这一理念,学者和专家们在基于词袋模型的文本表示方法中加入了词语的位置信息。通常做法是在某一篇文档中,为出现在不同位置的词语分配不同的权重。其中一种加权方式如下[64]:
.........................
3.1 过滤式特征选择 ......................................... 30
3.1.1 过滤式特征选择思想 ............................... 30
3.1.2 信息增益 .......................... 31
4 基于全局判别信息与遗传算法的特征选择方法 ................................ 49
4.1 遗传算法 ........................................ 49
4.1.1 包装式特征选择思想 ........................................... 49
4.1.2 遗传算法的优势与挑战 .............................. 50
5 基于词频与词位置信息的混合式特征选择方法 .................................... 58
5.1 混合式特征选择 ........................................................ 58
5.1.1 混合式特征选择方法的优势与挑战 .................................... 59
5.1.2 基于高权重词语的特征扩展 .................................... 59
5 基于词频与词位置信息的混合式特征选择方法
5.1 混合式特征选择
混合式特征选择方法的基本过程如图 5.1 所示:
在扫描文档集合获取全部特征后,将其送入过滤器,使用过滤式特征选择方法进行特征过滤,去除噪声特征和冗余特征,然后将过滤结果送入包装器内,使用包装式特征选择方法对不同的特征子集使用分类器性能以及其他指标进行评估,选取其中表现最优的特征子集作为最终的特征选择结果。由于文本数据高维稀疏的特性,想要在时间代价和分类效果之间达到平衡,就一定要结合过滤式特征选择与包装式特征选择的优势。因此,混合式特征选择策略非常适合用于文本数据的特征选择。
......................
6 总结与展望
6.1 总结
文章提出了一种基于词频与词位置信息的混合式文本特征选择方法,并对其过滤阶段和包装阶段进行了探究。主要研究内容有:
(1)基于词频与词位置信息的类别表征能力计算方法
主要对词频与文档和类别间的关联性质进行分析与推导,同时加入词语的位置信息,构造一种新的具有类别表征能力的过滤信息,主要工作包括:
① 使用生态学中尺度演绎的概念,对词文档频数与文档间的关联性质利用直接上推法进行尺度上推,得到词类别频数与类别间的关联性质并对词类别频数进行归一化;
② 基于各个类别的词类别频率,提出一种类别表征能力 ACR,用来判断某个特征对整个系统来讲是否具有区分力;
③ 对文档进行划分,使用词语位置对词类别频率进行加权,得到加权词类别频率,代替词类别频率来表达特征的类别区分力;
④ 在数据集上进行统计实验,得到高权重词语在文档中的位置分布情况,验证词位置信息的有效性。
参考文献(略)