第1章绪论
1.1研究背景
互联网的出现与发展以及计算机的快速普及,使得越来越多的人们开始从网络上获取信息和资源,这对于整个社会的信息化起到极大的推进作用。从原来网页内容的浏览者成为了信息和资源的制造者和共享者,互联网得到极大的丰富。但随着互联网的不断发展和网络资源的膨胀,如何对这些资源进行规范、有效的共享和管理,是目前互联网面临的关键问题,也是下一代主要研究方向。针对上述问题,2001年,F.Bermanl首次提出了知识网格的概念。他指出:“知识网格的作用是通过网格技术和数据挖掘等方法,实现对于大规模在线数据集的知识提取和融合,使得搜索引擎可以针对搜索问题进行智能的推理和回答,并从大规模数据中得出结果。”诸葛海也对知识网格做了比较全面的定义,并构建了知识网格模型。他认为知识网格是一个智能的环境,它使得用户可以对知识资源进行有效的获取,共享,发布和管理。吉林大学计算机学院符号计算与知识工程重点实验室针对于数字农业信息领域,承担了国家863项目“数字农业知识网格技术研究及应用”对农业信息知识网格的进行了深入的研究,并实现了基于Web的分布式农业知识网格平台。该平台采用数据挖掘,语义检索,本体,信息融合等技术,实现了基于语义检索的知识问答系统,基于数据挖掘的农业咨询系统和基于专家系统的农业生产决策支持系统,最终实现了知识问答、病虫害防治与预测、精准施肥和价格预测等功能。本文所做工作是为知识问答系统构建农业信息搜索引擎,实现农业信息搜集和查询检索功能,并针对农业信息搜索引擎的一些不足进行了相应的改进和优化。
1.2研究现状
搜索引擎在整个互联网的发展中占有重要地位,己经成为绝大多数网络用户进入互联网世界的门户,搜索引擎搜索效果的好坏对整个互联网的发展起到重要作用。伴随着搜索引擎的发展,互联网上的信J自、正呈现着指数级增长,但并不是所有的网页都包含对用户有用的信息,海量信息、中包含有大量的冗余信息。因此,搜索引擎技术的优化与改进成为了搜索引擎目前需要解决的问题,也是搜索引擎技术发展的方向。
目前,搜索引擎公司和研究人员提出和实现了很多搜索引擎优化方法。这些方法从不同的角度对搜索引擎的改进和优化进行了研究。基于网页链接分析算法改进的优化方法。2009年,陈小飞等[3]在Google公司的PageRank方法基础上,实现了基于网页质量的QPR算法。基于用户日志分析的优化方法。2003年,崔航等l4]基于用户日志分析,实现了搜索词的扩展。基于用户点击行为分析的优化方法。2008年,刘奕群等[5]基于对用户查询和点击行为的分析,实现了对搜索结果的自动评价。基于提高用户体验的优化方法。Google搜索添加了网页预览功能,使用户可以不用进入网站事先预览网页内容。奇虎问答针对论坛类型的网页在摘要中添加了发帖人的作者,论坛名、浏览次数和回帖数。
1.3本文工作
本文主要工作如下:
(1)实现了农业信息搜索引擎。本文重点分析了搜索引擎的工作原理和体系结构,对开源搜索引擎Nutch进行了深入的研究和探索,并在其基础上实现了农业信息、搜索引擎。
(2)基于农业信息搜索引擎,实现如下三方面改进和优化:
1.网页解析模块的改进。基于网页主题信息提取技术,通过分析HTML文档,将其转化为DOM树结构,再基于STU一DOM树方法,为DOM树节点添加一定的语义信息,通过这些语义信息判断节点的语义相关性,在网面解析阶段,实现主题信息提取和非主题信息的过滤。
2.摘要提取模块的改进。在传统的基于统计的自动摘要提取技术基础上,添加了文本特征的判断,从词频,句型和提示词等方面对句子权重进行相应的赋值。最后提取权值最高的若干句子,按文章顺序作为摘要句输出。
3.查询扩展模块的实现。以用户搜索词和搜索结果为依据,获取搜索相关词,实现扩展查询功能。采用查询领域本体的方式实现,通过建立领域本体,可以根据用户的搜索词查询该词在本体中的下位词、同义词和实例,实现相关词推荐的功能。
第2章搜索引擎相关技术
本章首先简单回顾了搜索引擎的基础知识,包括搜索引擎的分类和主要评价指标。随后详细介绍了搜索引擎的工作原理,这其中包括网页抓取模块、网页解析模块、网页索引模块和网页检索模块。最后介绍了开源搜索引擎Nutch的工作原理和体系结构。本章为后面的搜索引擎开发提供了相应的理论基础。
2.1搜索引擎相关知识搜索引擎分类
(1)基于爬虫的自动搜索引擎基于爬虫的自动搜索引擎是名副其实的搜索引擎,通过网络爬虫的网页抓取功能搜集互联网上的网站信息,建立索引库,通过与用户查询关键词的匹配,最后将满足条件的结果按照网页的匹配程度按照一定的排序规则返回给用户。国内外有代表性的有Google、百度、Bing等。基于爬虫的自动搜索引擎具有提供信息多、检索功能强、信息更新快等优点。但同时也有不足之处,提供的信息太多反而降低相应的查准率,并且查询结果中的重复链接比较多,层次结构不清晰。
(2)目录索引类搜索引擎目录索引搜索引擎是在工ntemet发展初期出现的搜索引擎类型。这种类型的搜索引擎的表现形式是网站链接按照目录分类的方式展现给用户。由于是人工参与的网站分类,所以信息质量高,查询的准确率也很高,但随着目前网站数量的增加,人工维护的工作量已过于巨大。Yahoo和DMOZ是典型的目录索引类搜索引擎。
第3章 搜索引擎改进和优化.................. 23-39
3.1 基于网页信息提取技术的网页解析.................. 23-28
3.2 基于文本特征和统计方法的摘要.................. 28-31
3.3 基于本体的查询扩展模块的实现.................. 31-38
3.3.1 本体相关概念和技术.................. 32-35
3.3.2 领域本体的构建 ..................35-36
3.3.3 基于本体的查询扩展.................. 36-38
3.4 本章小结 ..................38-39
第4章 农业信息搜索引擎的设计.................. 39-48
4.1 系统功能.................. 39
4.2 系统总体设计.................. 39-40
4.3 系统详细设计.................. 40-47
4.3.1 网页抓取模块的实现.................. 40-41
4.3.2 网页预处理模块的实现.................. 41-44
4.3.3 信息检索模块的实现.................. 44-47
4.4 本章小结.................. 47-48
第5章 系统运行结果和效果比较.................. 48-53
5.1 系统环境.................. 48-49
5.1.1 运行平台.................. 48
5.1.2 开发语言 ..................48
5.1.3 开发工具 ..................48-49
5.2 系统实现 ..................49-52
5.3 本章小结.................. 52-53
结论
本文工作基于国家863项目“数字农业知识网格技术研究及应用”,该项目基于智能推理、语义检索、数据挖掘、本体和数据融合等关键技术,为用户提供了农业价格预测、农作物精准施肥、农业查询知识和病虫害预测防治等功能。
本文实现了农业信息搜索引擎,为该项目中的知识问答系统提供了农业信息搜集和检索功能,同时为本地知识库的构建和扩展,提供了丰富的网络资源。本文主要工作内容包括农业信息搜索引擎系统的实现和对系统进行的改进和优化两部分。通过对搜索引擎工作原理和体系结构的学习,以及开源搜索引擎Nutch的深入研究和探索,在Nutch基础上实现了农业信息搜索引擎系统。针对于农业信息搜索引擎存在的一些不足,本文从三个方面进行了改进和优化。
1.对网页解析模块进行了改进。在网页解析模块中,添加了网页主题信息提取机制,基于STU一DOM树方法,通过DOM节点的语义属性值计算该节点的语义相关度,实现了网页中主题信息的提取和非主题信息的过滤,提高了查询的准确度。
2.对摘要提取模块进行了改进。在传统的基于统计的摘要提取基础上,添加了基于文本特征的判断,从词频、句型等方面对句子的权重进行更为精细的赋值,提高了摘要提取的准确度。
3.查询扩展模块的实现。本文采用基于领域本体的查询扩展方法,通过构建领域本体,然后依据本体中的概念层次关系,获得用户搜索词的下位词、同义词或实例等词作为相关词,实现了语义层面上的查询扩展。
参考文献
[1] Vasconcellos,E.A. Rural transport and accesshttp://sblunwen.com/nyjslw/ to education in developing countries: policyissues[J]. Journal of Transport Geography, 1997, 5 (2):127-136.
[2] Ribchester,C., Edwards,B. The centre and the local: policy and practice in rural educationprovision[J]. Journal of Rural Studies, 1999, 15 (1):49-63.
[3] Tuthill,S.J. Innovative approaches in rural education[J]. Rural Information Certer PublicationSeries,2000,72.
[4] Brown,P. H., Park,A. Education and poverty in rural China[J]. Economics of EducationReview, 2002 (21):523-541.
[5] Bouck,E.C. How size and setting impact education in rural schools[J]. The Rural Educator,2004,25(3):38-42.
[6] Hannum,W.H., Irvin,M.J. Distance education use in rural schools[J]. Journal of Research inRural Education,2009,24(3):1-15.
[7] Tomuletiu,A.E., Moraru,A. Rural education in Romania: Present and perspectives[J]. ProcediaSocial and Behavioral Seiences,2010,2 (2):402-406.
[8] Mtahabwa,L., Rao,N. Pre-primary education in Tanzania: Observation from urban and ruralclassrooms[J]. International Journal of Educational Development,2010,30(3):227-235.
[9] Huffman,W. E. Decision making: The role of education[J]. American Journal of AgriculturalEconomics,1974,56:85-97.
[10] Fane,G. Education and the managerial efficiency of farmers[J]. Review of Economics andStatistics,1975,57:452-461.