1 绪论
1.1 研究背景及意义
近年来,数据挖掘引起了信息产业界的极大关注,主要原因是计算机技术的发展使得每天产生 EB 量级的数据,人们迫切需要将这些数据转化成有用的信息和知识,应用到各个领域。数据挖掘实现了与医疗领域的有机结合,通过分析病人、处方等数据的规律,为医生提供有价值的观点和决策,从而准确预测疾病,指导临床实践[1-4]。数据挖掘应用到工业制造领域,帮助企业改进生产模式、优化管理流程、排除机械故障,有效提高了生产力[5-6]。在交通领域引入数据挖掘,可以保障道路安全,减少伤亡事故[7-8]。教育数据挖掘能够为学生提供个性化的课程管理,创建智慧课堂[9-11]。
数据可以分为结构化数据和非结构化数据。结构化数据也称为行数据,是由二维表结构来逻辑表达和实现的数据,严格遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。但是,随着互联网技术的发展,我们面临更多的是非结构化数据,没有预定义的数据模式,包括所有格式的办公文档、XML、HTML、图像、音频、视频等。IBM 估计每天产生的数据超过 2.5QB,其中非结构化数据占比约为 90%。国际数据公司(International Data Corporation,IDC)预计,2020 年非结构化数据将占全球数据的 95%,年增长率可达到 65%[12]。在各种非结构化数据中,一种突出的表现形式就是文本,例如新闻、网页、查询日志、社交评论。因此,从文本数据中挖掘知识、应用到其他领域、指导人类的生产生活变得极其重要。
文本信息提取是文本数据挖掘的一个研究方向。最初级的文本信息提取是从语料库中选择相对重要的词语来表示整篇文档[13-14]。然而基于词语的文本信息提取存在维数灾难、不能表达完整语义等缺点,因此,我们将文本的研究提升一个层次,从词语粒度扩大为短语粒度,进行短语的提取。基于短语的文本信息提取可以有效化解词语表示带来的问题。
................................
1.2 国内外研究现状
1.2.1 基于统计特征的文本挖掘
统计学知识可以广泛应用于文本挖掘领域,对相关模型和技术的实现起到理论支撑作用。卡方检验作为统计假设检验的一种,度量实际观测值与理论推断值之间的偏离程度。Zhai Y 等人提出一种基于卡方统计量的特征词提取方法,考虑到共同出现或单独出现的特征词在不同情况下可能不同,所以使用单词和双词作为特征进行文本分类[15]。Bahassine S 等人将卡方特征选择方法 ImpCHI 与 SVM 分类器相结合,很大程度上提高了阿拉伯语文本分类模型的性能[16]。Hou W J 等人旨在挖掘生物医学文献中的药物与疾病之间的关联模式,使用卡方检验对于不确定的模式进行进一步的验证[17]。Dutta S 等人提出一种基于卡方统计显著性来表征子图相似度的新技术,以获得最佳匹配的子图,应用到答案生成研究领域[18]。Zhenliang C 等人在分析实际文本数据和 CHI 特征选择算法的基础上,提出适合于中文文本分类的特征选择优化算法[19]。
国内也有很多学者基于卡方统计进行文本的相关研究。石磊等人提出一种基于MapReduce 的 CHI 文本特征选择机制,引入类内频率和类间方差,优化 CHI 方法的性能,提高文本分类精度,并实现了文本分类的并行处理,提高了文本分类的执行效率[20]。蔡镇等人为了避免传统 CHI 在不平衡数据集上分类效果差的问题,提出基于改进 CHI和带权 ECE 结合的特征选择方法[21]。康雁等人使用 CHI 和 WordCount 提取类特征词,实现基于主题相似性聚类的自适应文本分类[22]。邱宁佳等人提出一种将改进 CHI(TDF-CHI)算法与随机森林特征选择(RFFS)相结合的特征选择算法用于文本分类[23]。李平等人为解决文本情感分析中容易忽略单个文本词频的问题,提出基于混合卡方统计量与逻辑回归的文本情感分析方法[24]。由此可见,对传统的卡方统计进行改进和优化,应用于特征选择方法,可有效提高文本挖掘任务的性能。
.............................
2 相关理论与研究
2.1 计算语言学
2.1.1 计算语言学基本内容
计算语言学(Computational Linguistics)是通过构建形式化的数学模型,使用计算机程序对自然语言进行分析、理解和处理,从而实现机器模拟人的部分乃至全部语言能力的学科。计算语言学是语言学的一个分支,也称计量语言学(Measuring Linguistic)、数理语言学(Mathematical Linguistics)、自然语言处理、自然语言理解(Natural Language Understanding)或人类语言技术(Human Language Technology)。
计算语言学的研究不仅能够实现人机之间的语言交互,让计算机程序从大量自然语言中检索信息、学习和训练模型,还可以打破人与人之间的沟通障碍,使不同国家、不同地区的人们自由、流畅地交谈。因此,计算语言学的最终目标是研制能够理解并生成人类语言的计算机系统。
按照研究任务的复杂程度,计算语言学的内容可概括为以下三个方面:
(1)自动编排:计算语言学中较为简单、相对成熟的部分。主要工作包括统计、分类、排序各种语言素材,构建文本语料库、词典数据集、知识库等,处理索引、词表等信息。
(2)自动分析:比较复杂的计算语言学处理任务。自动分析系统是指计算机按照提前输入的特定语言信息工作,得到预先规定的结论。如果发现结论有误,则说明语法或字典信息有所欠缺,需要对原始数据或规则进行补充或修订。
(3)自动研究:更复杂的自动处理任务。自动研究系统是借助统计、类比等方式,分析计算机内部保存的一般语言信息,得出结论的过程。目前计算语言学中还没有比较成熟的自动研究系统,需要进一步努力和探索。
.......................
2.2 自动关键词提取
关键词最早出现在文献中,由于文献检索初期不支持全文搜索,因此关键词成为查找目标文献的重要途径。随着网络规模的不断增长,关键词已经拓展到各个领域。用户通过关键词在搜索引擎中获取相关信息,新闻关键词可以保证读者在第一时间了解国内外动态,系统还可以针对用户经常浏览的关键词进行相似内容的推荐。所有场景的根本任务是从文档中提取关键词。关键词是文章的高度凝练,是能够反映文章主旨和主要内容的词语或短语。下面给出关键词的相关定义。
定义 2.1 关键词:(1)指能体现一篇文章或一部著作的中心概念的词语;(2)指检索资料时所查内容中必须有的词语。《现代汉语词典》
定义 2.2 关键词是指能够简洁准确地描述文档主题的单词或短语。《国际信息与图书馆学百科全书》[97]
关键词通常具备几个特点[98]:
(1)可读性,即关键词必须是表达流畅、具有一定意义的词语或短语。
(2)相关性,关键词能够代表文档的主题,与主题之间有很强的关联性。
(3)重要性,关键词在文档中的重要性很高,不重要的边缘词语一定不是关键词。
(4)覆盖度,对于有多个主题的文档来说,关键词不能只表达一个主题的含义,需要覆盖到其他主题。
(5)一致性,文档一般指定 3-8 个关键词,关键词和关键词之间要在逻辑和语义方面保持一致,使读者可以通过关键词将文档内容简要串联起来。
...............................
3 基于统计特征的 Quality Phrase 评价准则 ................................ 23
3.1 频繁性准则 ....................................... 23
3.1.1 原始频数 ............................... 23
3.1.2 矫正频数 .................................. 23
4 基于统计特征的候选短语挖掘方法 ........................... 38
4.1 候选短语挖掘 ............................ 38
4.1.1 频繁 n-gram 短语挖掘 .................................. 38
4.1.2 多词短语组合性约束 ......................................... 38
5 基于统计特征的 Quality Phrase 选择方法 ...................................... 51
5.1 Quality Phrase 加权方法 ................................. 51
5.1.1 基于类别信息的 Quality Phrase 准则加权方法 ......................... 51
5.1.2 基于皮尔逊相关系数的 Quality Phrase 准则权重改进方法 ...................... 52
5 基于统计特征的 Quality Phrase 选择方法
5.1 Quality Phrase 加权方法
5.1.1 基于类别信息的 Quality Phrase 准则加权方法
在 Quality Phrase 挖掘中,准则加权的目的是得到频繁性、组合性、信息性、完整性四个特征对 Quality Phrase 的贡献程度,使得对 Quality Phrase 影响较大的特征占较大的权重,对 Quality Phrase 影响较小的特征占少量的权重,按照特征加权函数得分进行排序,提高短语挖掘的性能。
考虑到特征之间相互影响,存在冗余的情况,本节采用皮尔逊相关系数度量两个特征之间的相关程度,加入惩罚因子表示特征的冗余量对 Quality Phrase 造成的负面影响,改进特征贡献程度,完善候选短语的特征加权函数,提取 Quality Phrase。
基于统计特征的 Quality Phrase 挖掘方法框架分为四部分:第一部分实现对文本语料库的预处理工作,本文采用 Stanford CoreNLP 工具包完成去特殊字符、去停用词、大小写转换、提取词元信息等操作;第二部分融合了频繁 n-gram 短语挖掘、多词短语的组合性约束和单词短语的拼写检查来实现候选短语挖掘;第三部分的主要目的是得到频繁性、组合性、信息性、完整性的特征权重,使得对 Quality Phrase 贡献较大的特征占较大的比重,对 Quality Phrase 贡献小的特征占较小的权重;第四部分根据候选短语的特征加权函数得分排序,提取排名靠前的短语作为 Quality Phrase。
........................
6 总结与展望
6.1 总结
在信息科技发展迅速的当今时代,充斥着大量的文本数据,例如新闻报道、社交评论、科技论文等等。那么,如何将文本信息表示成易于理解的形式是文本挖掘和人工智能领域正在探索的方向。本文从 Quality Phrase 定义出发,制定通用的 Quality Phrase 评价准则,解决候选短语挖掘质量不高和 Quality Phrase 特征权重平均分配问题,提出了基于统计特征的 Quality Phrase 挖掘方法,适用于信息检索、文本分类、智能问答系统等多个任务场景。主要内容包括:
(1)基于统计特征的 Quality Phrase 评价准则
基于统计特征的 Quality Phrase 评价准则包括频繁性准则、组合性准则、信息性准则和完整性准则。第一,频繁性准则将短语频数的统计方式从原始频数改进为矫正频数,并通过实验证实矫正频数对 Quality Phrase 挖掘的 F1-Score 比原始频数提高 5.61%;第二,以卡方检验、点互信息、t 检验三种方式作为组合性准则的度量函数,通过实验表明点互信息在 Quality Phrase 挖掘中的性能最优;第三,利用逆文档频率来量化信息性准则,度量短语在文本文档中表达特定主题或概念的能力;第四,将完整性准则看作条件概率问题,推导完整性概率公式,提取具有完整语义单元的短语作为 Quality Phrase。
(2)基于统计特征的候选短语挖掘方法
为解决现有方法中候选短语质量不高的瓶颈,提出基于统计特征的候选短语挖掘方法,实现从文本语料库到候选短语的转化,为 Quality Phrase 挖掘奠定基础。第一,基于索引信息的频繁n-gram挖掘算法在n-gram生成过程中,引入频繁性准则排除低频短语,保留高频短语;第二,对于符合频繁性准则的多词短语进行组合性检验,提取满足统计意义度量函数的短语;第三,对于符合频繁性准则的单词短语,构造 Trie 单词查找树结构对其进行拼写检查。
参考文献(略)