第一章绪论
1.1研究背景和意义
近年来,随着互联网的规模和用户不断增长,互联网上的应用飞速发展,我国的信息化水平迅速提高。互联网成为人们了解世界、讨论问题、购物休闲,乃至从事学术研究、商贸活动的重要领域。由于互联网的开放性与快速传播能力,己成为人们发布信息和获取信息的重要渠道。根据CNNIC第29次互联网报告[l],截至2011年12月底,我国网民规模突破5亿,达到5.13亿;我国网页数量为866亿个,比2010年同期增长44.3 %
其中,网络新闻以71.5%的使用率位居互联网上第四大应用[Ll。网络新闻以互联网为依托,利用互联网的优势,有力的推动了新闻报道的发展,开启了一个新的传媒时代。网络新闻因其快速、及时、多元化和交互性强的特点,迅速成为了广大网民获取信息的主要来源之一。
网络新闻的出现,使得新闻信息的数量大大增加;而且网络新闻门槛较低,导致网络新闻种类繁多、质量参差不齐、垃圾信息泛滥,影响了人们获取信息的速度与便捷性。为了解决这一问题,各大商业搜索引擎如Google、百度等都推出了自己的新闻聚合平台,这些系统在一定程度上缓解了人们在互联网上阅读新闻的困难。
但是现有新闻聚合平台在提供便利的同时,也存在着一些不足:
(1)信息分布不平衡:不同行业的新闻数量差别巨大,教育或科学内容相对较少。
(2)处理的粒度大:这些系统研究、处理的对象是整个互联网上的新闻,处理的粒度比较大,因此这些平台并不适用于各高校、企业等组织。
(3)技术不公开:由于行业竞争或者商业秘密,这些平台的算法都没有公开,新闻的可靠性有待提高。
(4)信息来源不明:大都为商业内容,难免包含一些虚假,不真实的内容,而且一些搜索引擎人为的干扰了结果排名。
因此人们对新闻聚合平台提出了新要求,希望能开发出针对特定领域、特定人群的、资源消耗相对较小的新闻系统。
针对上述问题,本课题整合了当今互联网上的主题采集、网页动态更新、Web信息抽取等信息处理技术,设计了一个教育新闻采集系统,为教育新闻聚合平台提供准确、及时、整洁的教育新闻数据。
1.2国内外研究现状
1.2.1主题爬虫
主题爬虫是新闻聚合平台和垂直搜索引擎的重要组成部分,是新闻聚合平台和垂直搜索引擎的数据来源,直接决定了结果的好坏。普通爬虫是通过URL来获取网页,然后解析网页,拿到新的URL,抓取新的网页,依此循环,直到满足结束条件。主题爬虫在此基础上添加了主题过滤功能,使爬虫尽可能多的抓取主题相关网页,尽可能少的抓取不相关网页;在减少资源的消耗同时,还可以提高后续操作的准确性,因为无用、冗余的信息少了。
最早的主题爬虫出现在1994年,是一个使用查询来指导信息采集的系统一一Fish搜索系统。下面介绍一些代表性的系统。
1.2.2网页更新策略
进入Web2.0时代,Web开发的技术开始成熟,修改、更新网页比以往更容易,因此互联网上的网页更新也越来越频繁,更新周期越来越短。文献[o.o的研究表明,现在的互联网每周会产生3.2亿个新网页,20%的页面在一年内会消失,_50%的文档会在一年内发生变化。与此同时,人们对信息的时效性要求也越来越高,即使是很真实的、很有价值的信息,一旦失去时效性,它就会无人问津。
早期的搜索引擎通常采用固定的周期来更新本地网页库的信息,一般是以月或者星期为周期,进行一次全面的数据更新。但是随着网页的爆炸式增长,这种策略变的不可行了,为此,出现了增量式的更新方法。其基本思想是:互联网上有的网页变化无常,有的网页却十分稳定,如果在每一次的更新过程中只更新变化了的网页,则可以节约大量的资源,并且缩短更新周期。
随着研究的深入,J Cho和Anirban D等学者总结出了两种更新策略:统一更新策略和个体更新策略。如果采集系统以同样的频率更新本地网页库中所有的网页,称为统一更新策略;如果采集系统根据每个页面、站点改变的频率来更新页面,则称为个体更新策略。
在所有网页重要性相同的情况下,频繁采集变化频率高的网页不能明显提高整体的时‘效性;但是实际情况是网页的重要性各不相同,通过综合考虑网络的拓扑图、网页的变化规律、网页的时新性等,学者提出了更多有实践意义的更新策略。
1.2.3网页信息抽取
web信息抽取(Web Information Extraction:WIE)的前身是文本理解,最早开始于20世纪60年代中期,主要是从自然语言文本中获取结构化信息的研究。80年代末,由于文本数量急剧增长和消息理解研讨会MUC ( Message Understanding Conference)的推动,信息抽取技术研究开始蓬勃发展。再后来互联网的发展使得信息抽取朝Web信息抽取方向发展,Web信息抽取与传统的信息抽取最大的不同在于数据是半结构化的。
1.3主要研究工作和内容
本文的主要目标是设计并实现一个高性能的教育新闻采集系统,为教育新闻聚合平台提供有效、新鲜、整洁的数据信息。针对当前通用采集系统、主题采集系统存在的两个问题,以及当前木棉系统中主题信息提取模块存在的两个问题,提出了对应的解决方法,并进行了测试和结果分析。
主要解决的问题有以下三个:
1)现有的主题采集方法的主题漂移问题;
2)现有的网页更新策略不符合导航型页面的更新特点,导致采集时效性差的问题;
3)当前木棉搜索系统的主题信息提取通用性差以及网页标题抽取准确率低的问题。
具体完成的工作包括:
1)调研当前国内外信息采集系统、主题爬虫系统的研究现状及成果。
2)调研了当前信息采集系统中网页更新策略和方法,详细分析了导航型网页更新周期和规律。
3)调研了当前web信息抽取的研究现状,以及当前木棉搜索的主题信息提取存在的问题。
4)设计并实现了基于链接块锚文本的教育新闻过滤模块。
5)设计并实现了教育新闻采集动态调度模块。
6)设计并实现了网页标题、正文抽取系统。
7)对系统进行准确率、性能测试,以及结果分析。
8)设计并实现了高效的教育新闻采集系统。
1.4论文组织结构
本文对现有的主题采集策略,动态调度策略,信息抽取方法进行了分析,提出了对应的改进的方法。最后,设计并实现一个教育新闻动态采集系统。
论文章节安排如下:
第一章:综合论述了本课题的研究背景及意义,介绍国内外的研究现状以及本文的研究工作和内容。
第二章:对课题的相关技术进行研究,分析了主题过滤、动态调度、信息抽取的难
第三章:进行了系统的架构设计和模块设计,详细描述了系统的模块和工作流程。
第四章:详细介绍各模块的具体设计和实现。
第五章:介绍系统的实验结果,并进行分析。
最后对本课题进行总结,并提出下一步研究工作的重点。
第二章 相关理论.........................16-28
2.1 信息采集系统.......................16-20
2.1.1 网页下载.....................16-17
2.1.2 网页解析........................17-18
2.1.3 URL 去重.......................18
2.1.4 URL 调度....................18-19
2.1.5 工作流程.......................19-20
2.2 主题采集相关...........................20-22
2.2.1 基于文字内...........................20-21
2.2.2 基于分类................................21
2.2.3 基于链接分析.........................21-22
2.3 动态信息采集............................22-24
2.3.1 网页更新周期..................23
2.3.2 动态采集策略............................23-24
2.4 网页信息抽............24-27
2.4.1 HTML.........................24-25
2.4.2 DOM.........................25-26
2.4.3 SAX.............................26
2.4.4 基于分块的信..........26-27
2.5 本章小结..............................27-28
第三章 教育新闻采集系.......................28-33
3.1 系统的设计目标.......................28
3.2 系统的模块组成..........................28-29
3.3 系统的工作流程.......................29-31
3.4 系统的体系结构...........................31-32
3.5 本章小结......................................32-33
第四章 系统的详细设..............................33-57
..................................................................................................
总结与展望
主题信息采集系统是构建垂直搜索引擎等应用的关键技术之一,它的性能直接影响垂直搜索引擎的性能。因此,本文的工作是研究教育新闻采集及新闻信息的抽取。由浅入深的介绍了主题信息采集系统、动态更新技术、网页信息抽取的相关原理和技术,设计并实现了教育新闻采集系统。本文完成的具体工作包括:
(1)调研当前国内外主题信息采集系统、动态更新技术、信息抽取系统的研究现状及成果,分析并研究网络信息采集系统的工作原理和组成部分,深入主题采集系统的采集策略、动态更新技术、网页信息抽取等问题。
(2)设计并实现了基于链接块的主题过滤算法,解决了单个锚文本长度较短引起的精度不高的问题,以及网络新词导致的主题方向漂移的问题。
(3)设计并实现了教育新闻动态调度模块,实现了新闻的动态采集,有效的提高了本地网页库的时新性、新闻内容的时效性。
(4)使用浅层次的文本特征以及统计的方式实现了标题和正文的抽取,并具有很好的通用性,而且速度也很快,大大提高了后续处理的精度。
(5)对上述三个主要模块分别进行了测试,验证了这三个模块的有效性,并对实验结果进行了分析。
尽管本论文的研究取得了一定的成果,但是还存在一些不足有待完善,同时这也是今后工作的方向:
(1)本系统目前只是针对教育站点,处理的数据量不够大,需要在更大数量级的数据中进行测试和优化。现在是海量数据的时代,如何有效的扩展到多节点、大数据采集是本系统需要解决的一个问题。
(2)本系统的一些模块在功能和性能方面还有许多有待完善及改进的地方,需要在实践中,长时间的运行才能发现一些问题,然后有针对性的解决问题。
参考文献
[1] 任昌. 基于多特征融合的网页对象自动定位技术研究[D]. 中北大学 2011
[2] 彭聪. 一种在移动网络环境下的网页排序算法的研究[D]. 湖南大学 2010
[3] 董娟. 基于页面结构分析的网页信息抽取方法研究[D]. 中国石油大学 2010
[4] 刘俊荣. 基于行为识别的网页文本分类算法研究与实现[D]. 北京邮电大学 2010
[5] 宋鳌. 网页去噪在交互电视中的应用与研究[D]. 上海交通大学 2011
[6] 刘典型. 多页面特殊网页文字提取与合并技术研究[D]. 湖南大学 2010
[7] 刘阳. 基于内容的搜索引擎网页去重研究[D]. 江苏大学 2010
[8] 陈烨. 面向用户体验的网页界面优化设计方法研究[D]. 重庆大学 2010
[9] 张瑞雪. 基于DOM树的网页相似度研究与应用[D]. 大连理工大学 2011
[10] 任玉. 网页主题信息抽取方法研究[D]. 山西大学 2010
探析教育新闻采集系统的设计
论文价格:0元/篇
论文用途:仅供参考
编辑:论文网
点击次数:0
Tag:信息采集,主题过滤,网页更新,Web信息抽取
如果您有论文相关需求,可以通过下面的方式联系我们
客服微信:371975100