第一章 绪论
1.1 论文的研究背景
近年来,随着网络媒体等社交软件的日益普及,许多用户在网络社区、购物软件、论坛、微博、贴吧等社交媒体中发表网络评论。网络评论是指消费者在网上发表的对于各种事物(产品)的体验和评价,反映了消费者对事物(产品)的态度倾向和满意程度。比如对某部大片的影评,对某款手机的用户体验等。这些内容丰富的网络评论往往给其他用户提供了比主题本身更有价值的信息,而对企业和商务网站来说,这些来自客户方面的情感信息也蕴含着巨大的商业价值。
比较作为一种重要的表达和认知方式正越来越广泛的影响着我们的日常生活。人们为快速挑选出满足自己期望的商品,有必要借助网络评论,而网络评论中包含了大量的比较性信息。如图 1-1 中的网络评论中的比较句。该类语句表达不同事物(产品)在属性或特征上的差别,可以帮助消费者快速比较同类产品的优劣。现有的研究多基于网络评论的非比较句,对用户评论的语句倾向性做出分析。还有学者通过研究词汇相似度判断词汇的倾向性[1]。而对网络评论中的比较句研究不足。
.......................
1.2 论文的研究意义
从网络评论中进行比较句的抽取,获取同类产品的比对信息具有重要意义。因而,利用计算机对大规模非结构化的比较句语言进行高效的表示和识别逐渐成为了当今研究的热点。
(1)本文的研究丰富了中文网络评论情感分析的理论体系
语言结构以及文化背景的特殊性,增加了中文网络评论情感分析的复杂性。尤其是中文网络评论中的比较句,具有其自身固有的特点。针对中文评论中的比较句,引入自然语言处理技术和机器学习方法展开分析,本文的研究是对情感分析这一新研究领域的有益补充。
(2)本文的研究丰富了中文网络评论价值发现的应用体系
网络评论中包含了大量的主观性信息,如果对这些主观性信息进行挖掘,可以快捷地获取关于产品和同类其它产品的信息,更加有效地了解人们的真实看法。对于商业领域和人们的日常生活都具有重要的现实意义。
.......................
第二章 比较句识别的研究综述
2.1 网络评论比较句识别相关研究
2.1.1 比较句类型
Doran 等[8]在文献中列举了五种比较句,如 Nominal Comparatives、AdjectivalComparatives 、 Adverbial Comparatives 、 Adjectival Superlatives 、 AdverbialSuperlatives 等。Jindal 和 Liu 等[5-6]在文献中将比较句分为 4 类:非比较句、非平比的比较句、平比、极比。如表 2-1 所示:
马建忠的《马氏文通》是首个将复杂的中文比较句进行了系统的归类的人,文中将中文比较句分为了平比、差比、极比三种基本形式。吕叔湘等[9]人对中文比较句的划分变得更加详细,主要分为了类同、比拟、近似、高下、不及、胜过、尤最、得失、不如和倚变这 10 类。刘焱和许国萍[10-11]等在中文比较句的划分上则只分为了两大类:差比和平比,其中文中把极比看作了差比的下位概念。学者大多根据互不相同的比较标记给比较句划分不同的句式[12],选用 N-char-grams和 N-POS-grams 作为情感特征项,采用改进的文档频率法选择特征子集,布尔加权法计算特征权重,并进行卡方检验,探索了特征项选择对中文网络评论分析的影响。
.......................
2.2 网络评论情感词典相关研究
2.2.1HowNet 和 Word2vec
HowNet 是一种中文情感词典,是一个以汉语和英语词语所代表的概念为描述对象,以表示概念与概念之间、以及概念所具有的属性之间的关系为基本内容的常识知识库。在知网中,词语的概念是用“义原”来描述。其中部分词语的情感倾向可以由构成其概念的义原表示出来。目前己经在网上公布了情感词汇资源信息。分为主张词语(38 个)、正面情感词语(836 个)、正面评价词语(3730 个)、负面情感词语(1254 个)、负面评价词语(3116 个)、程度级别词语(219 个)。
Word2vec 是 Google 公司在 2013 年开源的一种词向量计算工具,可以对数以万计的数据进行高效的训练并且可以度量词与词之间的相似性。
Word2vec[23-24]估计来自大语料库的单词的连续向量语料库中的每个惟一单词都表示为一个向量,并且共享公共上下文的单词彼此之间的位置非常接近。Word2vec 已经应用于各种来源的文本数据,如社交网络服务、网络评论和科学出版物。
随着深度学习在自然语言处理方面领域得到广泛的应用,一般人都会认为word2vec[25]是一种深度学习模型,其实它是一种浅层神经网络。Word2Vec 它主要包括两种模型[26-27],一种是不考虑词序的连续词袋模型 Cbow 模型,另一种是基于窗口中单词的接近度分配不同权重的 Skip-gram 模型[28],这两种模型模式[29]均都包含输入层、投影层和输出层这三层结构[30]。下面主要针对这两种模型进行实例说明。
...........................
3.1 文本表示模型.......................................................13
3.1.1 特征项选择.........................................14
3.1.2 特征项降维..................................15
第四章 基于 CR(比较结果)情感词库的比较句识别................................. 28
4.1 情感词库相关知识................................28
4.2 CR 情感词库的构建....................................... 29
第五章 总结与展望........................................40
5.1 研究总结........................................40
5.2 研究不足与展望..............................40
第四章 基于 CR(比较结果)情感词库的比较句识别
4.1 情感词库相关知识
(1)知网 Hownet
HowNet(知网)“是以汉语和英语的词汇概念为描述对象,揭示不同概念之间以及概念本身所具有的属性之间为基础内容的常识知识库”。HowNet 词典中的每个概念都是用一种称为知识库标记语言(KDML)的语言来定义的。KDML主要由语义学和语义角色组成,语义学是未分离的语义单元,组织在层次分类中。具体来说,KDML 使用 2089 个语义、128 个辅助特征和 94 个语义角色作为词汇表。实际上,KDML 表达式可以看作是语义图。例如,定义概念经理:
..........................
第五章 总结与展望
5.1 研究总结
本文以手机产品评论为研究对象,主要注重于评论中的比较识别问题,并以现有的情感词典为基础,利用词汇的同义性和近义性,构建了比较结果情感词库,并应用在比较句的识别中。对于在线手机评论中比较句的识别研究,文本分类模型和情感词典的构建是比较热门的研究方向。国外率先开始情感词典的构建研究,并应用在比较句的识别中。国内情感词典的相关研究也在不断取得成果。结合对以往比较句识别文献综述的研究和分析,本文研究的主要工作有两方面:
(2)抓取 10000 条京东网站的手机产品评论,经过人工标注和精细的文本清理工作,得到了比较符合预期的训练数据集,作为词向量和文本分类模型的训练语料。以已有的三个情感词典为基础,利用词汇的同义性和近义性,构建比较结果(CR)情感词典,并用 CR 情感词典进行比较句识别。该词典包含手机评论的专有词汇和流行词汇,具有一定的领域性,并对情感词汇的极性值进行确定。实验结果表明在比较句识别的准确率上 CR 情感词典的加入能取得较好的结果。
参考文献(略)