第一章绪论
经过互联网近二十年的发展,我们已经从发展早期的信息医乏时代进入到目前信息、充斥着整个社会的崭新的信息时代。同时,互联网的发展也导致了很多冗余的信息存在,在信息冗余度如此之高的现在,如何快速准确获取用户所需求的信息就成为了新的研究课题。进入二十一世纪以来,随着互联网新技术和新的信砂息传播媒介的出现,特别是在社会化媒体出现以后,每个互联网用户都具有信启、创造和传播的能力。目前最常见的社会化媒体是博客(和微博客)、维基、播客、论坛、社交网络和内容社区等等。社会化媒体传播的信息、具有多种类型,其中新闻报道发布就是最常见的传播信息、类型之一,也是跟人们日常生活息息相关并最被关注的传播信启、类型之一。社会化媒体作为信息传播载体产生大量的新闻报道,并且这些新闻报道具有时效性强、数量大、增长快、动态演化等特点,比如某时某地的突发事件、自然灾害等等。现在乃至将来,如何从这些社会化媒体所发布的新闻报道中向用尸自适应推荐相关新闻报道的课题就是亚须解决的。
1.1研究背景
20世纪90年代以来,互联网逐步发展成为人们生活的重要部分之一。根据中国互联网络信息中心(ChlMC)于2009年7月16日发布的《第24次中国互联网络发展状况统计报告》显示,截止到2009年6月30日,中国的网民规模己经达到了3.38亿人,比2008年底增长4000万人,增长率达到13.4%。其中手机网民达到1.55亿人,宽带网民达到3.2亿人,网民规模仍然保持快速增长之势[50]。互联网发展近二十年来,它已经从发展早期的单一信息传播和交换载体发展到现在的多媒体信息时代的信息共享,从一种信息、分发与传播的技术架构发展到现在用户间相互交互的社会平台。
在互联网出现早期,比仅仅适用于静态页面和静态网站的发布和用户间E一mail的收发,它主要是作为信息发布、传播和交换的平台,并且信息类型单一,主要以文字为主。互联网的用户只是简单的浏览信息、接收信息,而无法进行信息的反馈和交互。随着互联网技术的进一步发展,到20世纪90年代后期,动态内容生成被用来提高Web服务器的智能,多媒体信息、的出现极大地丰富了网站和页面的内容,浏览器提供的客户端计算和事件处理的能力使得尼应用变成了分布式图形用户界面应用的一种标准架构。进入二十一世纪以来,Web2.0技术己经取代了先前的b1.0,基于七b2.0的各项应用也随之产生。跟几bl.0相比,己bZ.o则更注重用户的交互作用,用户既是网站内容的浏览者,也是网站内容的制造者。这种技术的改进使得在用户间更加富有创造性、共享性和协作性。其结果是,计算机科学不仅是设计和实现数据交流的技术,而且为Web的各类富有创造性的使用提供了有利条件工。
在目前更广泛的范围下,Web是社会化媒体的一种重要的传播媒介手段之一。社会化媒体包含互联网论坛、博客、TWitter、wikis、P.StCast、即时消息、社交网络和内容社区等。社会化媒体是一种新的内容创作和传播方式,它赋予了每个人创造并传播信自、的能力。社会化媒体的一种重要形式就是信息自我发布或者客户生成媒体。在自发布中,一个用户可以发表一篇文章,或者发布一则新闻,或者是上传音乐视频等与其他用户共享。对于新闻报道的自发布,其他用户可以对用户自发布的新闻报道进行阅读,并且对其作出评论,而且这些用户评论也可以同时再被其他用户阅读并对用户发表的评论再作评论,同时也可以对新闻报道本身或者评论进行投票。目前己经投入使用的Digg,YahooBuzz(buzz.yahoo.eom)就是几个自发布的商业应用例子。图1一1是来自Digg的一个新闻页面快照,其新闻报道发布和评论都与投票相互关联,充分说明了其他用户对新闻报道本身及对此新闻报道评论的评定。显然,这只是互联网论坛在数量上的度量的扩展。这种论坛应用的有效扩展就是增加一个推荐特征到目前所讨论的主题中。也就是基于原始新闻报道本身、大量各级的评论以及它们的投票,系统可以提供一个相关文档集,这个文档集就是当前主题讨论中的用户兴趣所期望的。在此系统中,用户的知识经验可以在被推荐的新闻文章时得到极大地放大。
1.2研究动机和意义
1.2.研究动机
目前,社会化媒体的使用发展迅速,面对各类复杂多样的来自社会化媒体的新闻报道,如何根据新闻报道本身和用户关注度等向用户自适应推荐相关新闻报道的问题就是目前所需要解决的。本文所提出的基于用户评论的自适应新闻推荐系统就是用来解决这个问题的方法之一,它的一个最基本的挑战就是解决主题发生偏移的情况,例如在讨论过程中主旨的改变。这个可以通过用户的评论和相关投票反映出来[l7]。在自我新闻发布中,原始新闻报道伴随着其他读者的观点,以评论和投票的形式存在,正在主题讨论中的用户的意向和所关注的主题会随着讨论的继续进行而发生偏移和改变。因此,如果新闻推荐系统仅仅是基于新闻报道本身的话,那么它就不能很好的满足用户潜在的兴趣改变。例如,假设原始新闻报道发布的是森林砍伐,但是随后的讨论转变到沙漠化和全球变暖的主题之上了,在没有考虑讨论主题偏移的情况下,其他关于沙漠化和全球变暖的有价值的新闻报道在传统的新闻推荐系统中将被彻底忽略。显然地,在自适应的新闻推荐系统中需要考虑主题的演变,并且需要新的技术来帮助捕获主题的演变和精确地阻止返回给用户完全无关的新闻报道话题。
1.3 基本概念 .......................15-18
1.4 研究内容与系统框架 .......................18-19
1.5 本文的主要贡献和结构安排 .......................19-21
第二章研究基础与背景 .......................21-34
2.1 新闻推荐 .......................22-23
2.2 信息检索 .......................23-26
2.3 话题检测与跟踪 .......................26-29
2.4 相关语言模型 .......................29-31
2.5 用户界面设计....................... 31-32
2.6 本文研究的特色 .......................32
2.7 本章小结 .......................32-34
第三章新闻推荐系统设计 .......................34-49
3.1 通过基于图的模型计算评论得分 .......................34-40
3.2 话题轮廓文件构建 .......................40-44
3.3 利用相关语言模型进行新闻检索 .......................44-47
3.4 呈现被推荐新闻 .......................47
3.5 本章小结 .......................47-49
第四章实验设计与实验评价 .......................49-56
4.1 实验数据 .......................49-50
4.2 实验工具 .......................50-51
4.3 实验基本方法 .......................51
4.4 新闻推荐系统性能度量方法 .......................51-52
4.5 统计学显著性 .......................52
4.6 总体性能 .......................52-53
4.7 话题轮廓构建参数 .......................53
4.8 评论影响 .......................53-55
4.9 本章小结 .......................55-56
总结
经过课题研究小组的共同努力,本课题顺利实现了系统的设计和实现。现将本课题总体工作总结如下:本文所研究的新闻推荐系统充分考虑了用户的大量参与、交互和用户的兴趣偏好,很好地平衡了新闻报道发布作者和读者二者之间的观点,提供了良好的新闻推荐服务。本文在进行新闻推荐时考虑了新闻报道本身和用户评论内容。为了度量评论重要性的影响程度,本文首先对用户评论的关联进行了分析,在基于图的模型表示评论间关联中主要考虑了内容关联、回复关联和引用关联。在计算评论得分时,本文采用了PageRank算法来计算评论得分,并按照得分高低进行排序。
本文采用新闻报道轮廓文件和评论轮廓文件合并而构建成话题轮廓文件。首先对新闻报道中的词项计算标准TF/石DF值,从而得到每个词项的权重,按照权重大小构建新闻轮廓文件接着对评论中词项权重大小进行计算,并按照权重大小进行评论轮廓文件构建最后在合并新闻轮廓文件和评论轮廓文件时采用了词项复合权重来表示每个词项的最终权重,根据最终权重的大小构建成话题轮廓文件。在建立新闻推荐检索模型时采用了相关语言模型,并采用Kullback一Leibler(KL)pergence算法来度量新闻报道和话题轮廓间的相似度,根据相似度的大小给用户提供新闻推荐。
参考文献
1中国互联网络信启、中心.《第24次中国互联网络发展状况统计报告》.中国互联网络信启、中J自,2009年7月16日
2高琳琦.基于用户行为分析的自适应新闻推荐模型.图书情报工作,第51卷第6期,77一80
3何永春.移动网络中个性化新闻推荐服务系统的设计和实现.北京邮电大学硕士学位论文,2006年
4洪宇,张宇,刘挺,李生.话题检测与跟踪的评测及研究综述.《中文信息学报》,2007年第21卷第6期
5赵华,赵铁军,赵霞.时间信息、在话题检测中的应用研究.计算机科学,2008年第35卷第1期,221一223
6于满泉,骆卫华,许洪波,白硕.话题识别与跟踪中的层次化话题识别技术研究.计算机研究与发展2006年第43卷第3期,489一495
7宋丹,王卫东,陈英.基于改进向量空间模型的话题识别与跟踪.计算机技术与发展,2006年第16卷第9期,62一65
8张压,刘云.话题识别与跟踪技术的发展与研究.北京电子科技学院学报,2008年第16卷第2期,77一79
9李保利,俞士坟.话题识别与跟踪研究.计算机工程与应用,39(17):7一10.
10洪宇,张宇,范基礼,刘挺,李生.基于子话题分治匹配的新事件检测.计算机学报,2008年第31卷第4期
社会新闻推荐体系的设计及其实现
论文价格:0元/篇
论文用途:仅供参考
编辑:论文网
点击次数:0
Tag:新闻推荐,社会化媒体,用户评论,信息检索,推荐系
如果您有论文相关需求,可以通过下面的方式联系我们
客服微信:371975100