网络舆论探测、跟踪与分析技术研究

论文价格:0元/篇 论文用途:仅供参考 编辑:论文网 点击次数:0
论文字数:**** 论文编号:lw202329123 日期:2023-07-22 来源:论文网

绪论

1.1 选题的背景和意义

互联网已经成为传播信息的主要载体,网络中充斥着各种各样的信息,有积极的、正面的,也有虚假的、反动的不良言论。互联网具有复杂性和多变性的性质,其信息的传播速度之快、影响力之广都是传统媒体难以匹及的。当发生社会突发事件时,由于网络舆论的压力甚至可能导致事件的恶化,进一步危害国家安全和社会稳定。因此针对社会热点和敏感话题,政府及相关管理者有必要对其进行一定程度的引导和治理,即:舆论主题的监控,以防止事态恶化。舆情监控分析系统正是为了实现这一目的建立起来的。热点和敏感话题是网民关注比较高、争论比较激烈、影响范围比较大的话题。一方面,它代表着民情民意,是现实生活在网络中的映射。因为它可以反映人们的所想所愿,作为大众社会生活的晴雨表和显示器,有利于政府采取相应措施解决社会中存在的问题,保证社会的稳定和谐。另一方面,网民对网络中的热点话题往往会带有情绪化,很多人会借助互联网这个自由的言论平台发泄心中不满,甚至有人会处心积虑的利用当前的社会突发事件制造虚假言论,煽动网民情绪造成舆论压力,造成民心不稳,影响社会安定。

国家政府及相关管理者可以借助舆情监控分析系统这一工具,实施对当前社会突发事件的探测以发现舆论的热点话题,继而对该热点话题进行追踪和进一步的分析。可以为政府及相关管理者提供理论依据,有利于政府及相关管理者采取相应措施对当前社会突发事件进行引导和控制,保证民心安定和社会稳定。另外,及时把握网络舆论的动向加以引导和管理,有利于建立良好的政府管理形象,提高政府的公信力。目前舆论主题的监控分析已经成为网络舆论研究的热点方向之一,研究的主要内容有:舆论主题的探测与追踪、舆论主题的情感倾向性分析。

本文通过对各项关键技术的研究,对其中的文本模型和相似度计算进行了一定程度的改进,针对主题漂移现象,提出基于事件演化关系的主题探测和主题追踪模型,提高了在发生主题漂移现象时的准确率。另外,针对目前的情感倾向性分析模块的不足,提出了基于事物多面性的情感倾向分析,更好的把握文本的局部情感极性,完善了网络舆情监控的作用,从而为政府管理者和相关部门提供了理论支持。

1.2 国内外研究现状

本文研究的舆情监控系统主要分为两大模块,一是主题探测与追踪(TopicDetection and Tracking),这个概念是由美国国防高级研究计划署(DARPA)于 1997年提出的[2],该项研究的最初宗旨是以新闻报道流为对象,探测出新闻报道流中的用户感兴趣的主题,并对主题进行追踪,然后将与主题相关的新闻报道汇集起来以某种形式呈现给用户。二是情感倾向性分析,根据研究对象的不同,情感倾向性分析主要分为两部分:针对商品评论方面的情感倾向性分析和针对新闻文本的情感倾向性分析。下面将详细讲述两大模块的国内外研究现状:

1.2.1 主题探测与追踪

1.主题探测和主题追踪相关概念主题探测的任务是将获得的各种新闻报道经过处理后划入到不同的新闻主题中,如果新闻报道与已存在的主题都不相符,那么就根据这篇新闻报道建立新的主题。由此可以看出这个任务类似于聚类(系统并不知道将要建立多少个主题),该任务可以划分成两个阶段,首先是探测出新事件,系统将识别出关于某个主题第一篇新闻报道,并依据该报道建立新的主题。其次是探测出是否存在与已存在主题相关的新闻报道。

主题追踪的任务是在后续的新闻报道中追踪到与已知主题的相关的新闻报道。主体追踪的工作流程是这样的:在待处理的新闻中,逐一判断与已知主题相关的新闻报道,实现对某一主题的追踪。最初美国国家标准技术研究院(National Institute of Standards andTechnology, NIST)将 TDT 的任务分成五部分,分别是包括面向新闻广播类报道的切分任务(Story Segmentation Task, SST);面向已知话题的跟踪任务(TopicTracking Task, TTT);面向未知话题的检测任务(Topic Detection Task, TD);对未知话题首次相关报道的检测任务(First-Story Detection Task)和报道间相关性的检测任务(Link Detection Task)[7]。随着研究的深入,NIST 也将这些任务进行了更改,比如 TDT2004 撤销了 SST,首次提出了自适应话题追踪(Adaptive topictracking)和层次话题检测(Hierarchical topic detection, HTD)的概念。报道切分的目的是将新闻报道中关于不同主题的描述切分出来,归纳入不同的主题;面向已知话题的跟踪的目的是对已知话题进行跟踪.

第二章 相关理论介绍..........9

2.1 中文分词 ..........9

2.2 文本模型 .........10

2.3 特征权重计算方法.........12

第三章 基于事件演化的主题探测和追踪模型..............17

3.1 改进的报道模型和主题模型.............17

3.2 特征词权重的计算及特征选择.............18

3.3 相似性计算..............19

第四章 基于事物多面性的情感倾向性分析................23

4.1 构建情感词典.............23

4.2 抽取情感分析三元组...............26

4.3 情感倾向性分析..............27

总结

目前,互联网已经成为人们在日常生活中获取信息的重要媒体,而人们面对是一个海量的数据信息,人们要从中获得自己感兴趣的话题信息,并且能够适时的获得该话题相关的信息,仅仅依靠搜索引擎是不够的,因此为了能够发现和追踪热点和敏感话题,产生了舆情监控分析系统。本文首先总结了舆情监控分析系统的国内外研究现状,针对当前网络舆情监控系统产品的不足,提出了本文的研究方向:主题探测与追踪和情感倾向性分析。

参考文献

[1] 《第 30 次中国互联网络发展状况统计报告》 中国互联网络中心 2012 年 7 月

[2] Topic Detection and Tracking(TDT) Evaluation Workshop. The 2002 topic detection and tracking task definition and evaluation plan[EB/OL]. 2006 04.

[3] J Allan, V Lavrenko, and R Swan. Explorations within topic tracking and detection. Topic Detection and Tracking: Event-based Information Organization. Kluwer Academic: Maccachusetts, 2002,197-224.

[4] JM Schultz and MY Liberman. Towards an universal dictionary for multi-language IR applications. Topic Detection and Tracking: Event-based Information Organization. Kluwer Academic: Massachusetts, 2002, 225-241

[5]Leek T, Schwartz R M, and Sista S. Probabilistic approaches to topic detection and tracking[A]. Topic Detection and Tracking Event-based Information Organization [C]. Kluwer Academic Massachusetts, 2002, 67-83

[6]J Yamron, L Gillick, P van Mulbregt, and S Knecht.http://sblunwen.com/ylxlw/Statistical models of topical content [A]. Topic Detection and Tracking Event-based Information Organization [C]. Kluwer Academic Massachusetts, 2002, 115-134.

[7] 王时.基于语义结构和时序特征的话题检测与跟踪技术研究[D] 北京,北京交通大学,2011

[8] Yiming Yang, Tom Ault, Thomas Pierce, and Charles W. Lattimeer, ImprovingText Categorization Methods for Event Tracking. In Proceedings of the 23th International Conference on Research and Development in Information Retrieval(SIGIR-2000),2000, 65-72

[9] J Allan, V Lavrenko, and R Swan. Explorations within topic tracking and detection. Topic Detection and Tracking: Event-based Information Organization. Kluwer Academic: Maccachusetts, 2002,197-224.

[10] Kumaran G, Allan J. Text Classification and Named Entities for New EventDetection[A]. In Proceedings of the 27th Annual International AMC SIGIR Conference[C]. New York, NY, USA: ACM Press, 2004: 297-304


如果您有论文相关需求,可以通过下面的方式联系我们
客服微信:371975100
QQ 909091757 微信 371975100