本文是一篇语言学毕业论文,本文主要针对英文社交媒体文本消息进行研究,特别是 Twitter 平台的文本消息,即 tweet,tweet 自身具有的许多独特特点,在处理 tweet 数据时我们也面临很大的挑战:首先一条 tweet 的长度被限制在 140 字以内;除了其不规则的语言结构和语法表达方式,一条 tweet 中还可能包含了许多的缩略词、符号表情、话题标签、俚语、链接地址等,这使得情感提取和观点挖掘变得困难。
第 1 章 绪论
1.1 研究背景与意义
随着 Web 2.0 时代的到来,通过社交网络进行人际交流的交互性与即时性日益加强,各类社交媒体逐渐成为大众普遍用以交流观点、抒发情感的平台,越来越多的人倾向于通过不同的社交媒体平台分享他们针对时事、名人、产品的独特见解或者只是简单地表达他们的情感和情绪。针对社交媒体信息的情感分析成为用以挖掘人们对不同事物的观点和情感的重要研究领域,随着社交媒体、微博、论坛的快速广泛应用而扮演着越来越重要的角色。现如今,几乎每一个网站都会为用户可以留言评论的区域,挖掘这一海量的观点和意见能够为企业和组织提供理解人类行为的信息,具有重大的商业价值和社会研究意义。越来越多的研究表明,通过分析社交媒体内容的情绪,可能预测市场的规模或失业率随时间的变化。
1.1.1 Twitter
目前在所有的社交平台中 Twitter 成为最流行的网站之一,如图 1-1 所示为某一 Twitter 用户主页。2006 年,埃文·威廉姆斯(Evan Williams)创建的新兴公司 Obvious 推出了微博服务,该项服务具体是由杰克·多西在 2006 年 3 月创办并在当年 7 月份开始启动,所有用户都可以在该网站注册账号,之后通过该账号随时随地发布消息,发布的消息被称为 tweet,tweet 的长度被限制在 140 个字符之内,也因此使得消息发布到网络上的过程更加快速和便捷,基于此 Twitter 实现了信息的流程化,为人们的信息共享做出了又一重大贡献。在过去的十年中,Twitter 的用户数目一直稳定增长,并且用户中融合了各种类型人员:学生、专家、名人、公司、政治家等,据 2016 年统计数据表明,其目前已拥有超过 645,000,000的注册用户,平均每天发布的 tweet 数量超过 190,000,000 条,因此在这种环境下,每天实时更新的巨量数据使得 Twitter 成为了人们研究并做出预测的一个强大工具。得益于 Twitter 提供的应用程序接口,我们可以获取大量丰富的数据,对这些数据进行分析和挖掘为文本分析的研究工作提供了契机,能够帮助我们推断出大众对于各类人、实事、产品、政策等的观点和态度,利用这些结论我们可以做出更明智的预测和选择。
........................
1.2 国内外研究现状
微博作为新型的社交媒体平台最近几年才开始迅速发展,目前在国外主要有Facebook、Twitter 等,而国内的微博平台也是最近几年才开始成立发展,例如2009 年成立的新浪微博和 2010 年成立的腾讯微博等。
1.2.1 国内研究现状
由于国内社交媒体平台较国外出现的晚一些,因而发展研究相较而言也还没有完全成熟,但目前国内针对社交媒体平台的文本分析研究正日趋广泛和深入,也有相当一部分研究人员针对中文微博平台的文本消息进行情感分析研究。张珊、于留宝等人的工作首先通过将微博中的表情图片和情感词语相结合来构建中文微博情感语料库,并且利用熵的概念对语料库进行优化,通过提取 n-gram特征来训练贝叶斯分类器从而实现情感分析,该工作实验证明使用 unigram 特征能够得到最好的分类结果,其实验评估指标 F 值可以超过 89%;谢丽星、周明等人利用新浪微博的应用程序借口获取大量数据,采用三种方法进行比较研究,一是符号表情的规则方法,二是情感词典的规则方法,三是基于 SVM 的层次结构的多策略方法,并针对第三种放大其通过大量实验证明了第三种方法可以取得最好的分类效果;王志涛,於志文等人同样首先抓取大量的新浪微博数据,然后建立自己的情感极性值词典,采用基于词典和自定义的情感分值计算规则来计算情感极性值,同时也特别注重了对符号表情这一 tweet 文本特征的利用;孙建旺、 吕学强等人则采用机器学习的方法,选取文本中的形容词和动词作为训练特征,使用基于层次结构的特征降维方法,通过符号表情计算特征极性值,利用极性值计算权重,最后利用 SVM 分类器将文本分为积极、消极和中性三种类型;梁军、柴玉梅等人则利用深度学习的方式,主要使用递归神经网络确定相关特征,而非设计人为特征选取方法,同时他们的工作引入了一个情感极性转移模型,该模型具备了强的对文本关联性的捕获能力。
.......................
第 2 章 情感分析方法研究
2.1 有监督类情感分析方法
使用有监督类方法进行情感分析的工作大多遵循的方式为在各种分类器上测试的不同特征组合。有监督类方法常用的分类器有 SVM、朴素贝叶斯、决策树等,通常从文本中选用的特征为 n-gram,有些工作通过人为设定一些特征通过实验分别验证每类特征的有效性,还有一些工作通过某种特征选取方法来决定从训练数据中提取的特征类型,常用的特征选取方法有互信息 MI、信息增益 IG、CHI 统计等。
2.1.1 常用特征及处理方法
有监督类情感分析方法最常用的特征为 n-gram,即连续的一个或多个字符,其中最常用的为单字符,双字符和三字符,例如在文本“This is such a beautifulday!”中,提取的单字符特征为{This, is, such, a, beautiful, day, !},双字符特征为{This is, is such, such a, a beautiful, beautiful day, day !},三字符特征为{This is a, isa beautiful, a beautiful day, beautiful day !}。上例中的特征没有对字符进行任何处理直接使用,有些工作中会将所有字母转化为小写,或者进行词干提取、标准化等预处理再提取 n-gram 特征来训练分类器。提取 n-gram 特征的具体表示形式分为是否存在与出现频率两种,第一种即文本向量中只包含 0 和 1 两种数字,1 代表该字符存在,0 代表不存在,第二种即将每个字符在文档中出现的频率作为特征。另外有很多工作特别针对被否定的字符进行特殊处理,例如在被否定的字符后加上某些特定字符,如“I don’t like the movie!”提取的单字符特征为{I, don’t,like_NEG, the, movie, !}。Pak 和 Paroubek第一次在三个分类器(支持向量机、多项式朴素贝叶斯、条件随机场)上测试了单字符、双字符和三字符特征模型,他们的实验结果表明使用双字符特征训练的多项式朴素贝叶斯分类器可以得到最好的结果。
......................
2.2 无监督类情感分析方法
与有监督类情感分析方法不同,无监督类方法不需要大量带有分类标签的训练数据,而主要依赖于现有的情感极性值词典,另外研究人员通常会预定义一些规则来优化计算情感分值过程,使得计算分值更精确合理。
2.2.1 常用特征及处理方法
针对使用了否定词的文本,无监督方法首先需要确定否定范围,Ding等人和 Taboada等人的工作主要针对评论类文本进行情感分析研究,这类文本比tweet 更长并且语法使用和语言表达都更标准和规范一些。Ding 等人主要检测与否定词直接相邻的词语来确定否定词的否定范围,而 Taboada 等人提出的SO-CAL 模型则以否定词为开始向后检查一定数量的字符直到遇到被列在跳过列表中的字符,Hutto 等人提出的 VADER 模型则预先将否定范围设定为一个固定值,在他们的试验中他们通过检查任何带有情感极性词语前边的三个词语是否存在否定词,当存在否定词的时候再按照计算规则极性相应处理。
2.2.2 常用计算规则
针对否定词的计算规则主要是将被否定的字符的情感极性翻转,Wiegand等人特别针对否定词的检测和处理给出了一个相对全面地概述。Ding 等人在确定了否定范围后则直接翻转带有积极或消极情感极性词语的极性分值,此外他们还考虑了“否定词+中性词”的表达模式并将其视为消极情感的一类情况;Taboada 等人提出的 SO-CAL 模型则不是直接翻转极性值符号,而是将情感分值向相反的方向转移一个固定的数值。针对 tweet 文本,Thelwall等人提出的的 SentiStrength 模型也选择翻转被否定词的极性并且忽略中间的修饰词;Hutto等人提出的 VADER 模型检查任何带有情感极性词语前边的三个词语,如果出现否定词则将其极性值乘以-0.71,该值由经验得出。
.........................
第 3 章 情感极性值词典及辅助词典......................13
3.1 情感极性值词典 ............................13
3.1.1 自动生成.............................13
3.1.2 人工手动标注 ........................15
第 4 章 基于结构化语言学特征的情感分析...............19
4.1 系统框架及概述 .....................19
4.2 预处理 .......................20
第 5 章 实验结果及分析........................33
5.1 数据库介绍 ...................33
5.1.1 STS-TEST ..................33
5.1.2 STS-GOLD ......................33
第 5 章 实验结果及分析
5.1 数据库介绍
我们选用五个现有的 tweet 数据库,这些数据库目前均被广泛利用来评估情感分析系统的性能。五个数据库来源不同,标注方法以及最终标注的标签类别也不尽相同,下边我们将简单介绍一下这些数据库以及我们如何将原始标签映射成我们主要处理的两类标签。
5.1.1 STS-TEST
STS-TEST 为 Stanford Twitter 情感语料库,由 Go[等人创建,包含了一个训练集和一个测试集,但只有测试集是人工标注的,这个数据库已被各种有监督情感分析方法评估使用,其中积极类文本 182 条,消极类文本 177 条,共计 359 条。
5.1.2 STS-GOLD
STS-GOLD 是 Saif等人以Stanford Twitter语料库中的STS-TEST为基本数据库,从中选取了一些数据,然后让三个毕业生极性人工标注,最终只选用三个人标注结果一致的数据,这个数据库除了标注 tweets 的情感极性,还标注了一些实体名字。其中积极类文本 632 条,消极类文本 1402 条,共计 4200 条。
......................
第 6 章 总结与展望
6.1 本文工作总结
在 Web2.0 时代,人们越来越能够充分享受信息爆炸带来的方便和快捷,网络媒体、社交媒体发展飞速,在这个广阔的平台上,人民每时每刻随心所欲的生产大量的信息,文本、图片、视频,这些都能够成为丰富的研究资源,通过对海量数据的统计研究,可以为人们提供更个性化也更高效的服务,真正服务于社会生活的方方面面。
目前针对社交媒体消息的情感分析引起了越来越多研究人员的注意,但大多数现有的方法在计算情感分值的时候都没有充分利用语言学特征,然而,网络用户特别是社交媒体用户尤其喜欢用一些非标准的语言和形式使他们的情感、情绪或观点表达的更清晰更特别。
本文中,我们针对一些常用的语言学特征提供了一个综合的概述,并且将这些特征都包含到了我们的情感分析系统 LingoSent 中。LingoSent 情感分析系统主要包括三个部分,第一部分我们设计了一个具有情感感知的预处理器,这个处理器特别针对社交媒体文本消息,即便是 tweet 这种非常短并包含各类非正式的拼写形式和表达方式均能进行有效的处理;第二部分,我们详细描述了对所提出的结构化语言学特征的利用,我们首先为每个字符设置了一个情感分值影响因子,然后分别提取词语级别、短语级别和句子级别的语言学特征对该情感分值影响因子进行优化,最终利用四个现有的情感极性值词典计算 tweet 的整体情感分值,从而判断出本文的情感极性值。最后通过不同来源的五个数据库,从进行的大量对比试验的评估结果看出,与那些针对更正式的书写方式和语法表达的文本的情感分析方法相比,考虑这些语言学特征能够明显提高情感分析系统的分类准确率。
参考文献(略)
基于结构化语言学特征的社交媒体文本情感分析研究
论文价格:0元/篇
论文用途:仅供参考
编辑:论文网
点击次数:0
Tag:
如果您有论文相关需求,可以通过下面的方式联系我们
客服微信:371975100