本文是一篇软件工程论文,本文对知识图谱基本概念做出介绍,并对知识图谱生成技术与质量评价相关工作进行调研与分析,提出了当前工作的不足之处,为本文的创新点做铺垫。第三章中,为了改进传统信息抽取中命名实体识别对教育实体抽取存在的准确性问题,本文提出了一种基于迁移学习的命名实体识别编码器ConvEncoder,使用全局特征抽取模块提取语义特征,使用多重卷积提取术语的局部特征,并接入注意力机制使模型判别各模块权重,抽取得到最后的结果。
第一章 绪论
1.1研究背景和研究意义
随着信息技术的发展,网络教育资源越来越丰富,学习者可以不受教学环境的限制,便利地获取海量符合自身需求的优质教育资源,极大得提高了学习者的主动性,推动了传统教育模式的变革。人工智能、深度学习等技术的发展更助推了在线教育模式的发展,智慧教育、个性化教育越来越受到人们的关注,成为当前教育研究与实践的热点。然而,我国教育行业面临个性化教育的普遍需求与优质教育资源短缺的主要矛盾,针对教育资源供给侧改革是推动和发展线上教育新模式的重要手段。
软件工程论文怎么写
1.1.1 众筹众创教育模式研究背景
众筹众创教育模式是一种面向开放资源与共享平台的模式,其目的是将各个领域的教育资源共享,并提倡不同的教育者、教育机构参与到创建资源的过程中[1]。早在90年代末,国内的中小学在线教育便开始发展,不同学校的师资团队将课程录制成视频资源进行共享,开启了数字化教育资源建设的新模式。
随着互联网技术的发展,以 EDX、Udacity、Coursera为代表的在线教学平台与全球顶尖的大学合作,免费向各国学习者提供优质的教学资源,推动了优质教学资源全球化的发展[2]。当前,数字教育资源建设已从初期的国家教育局集中建设,逐步转变为一种资源共创共享的模式,以适应不同层次、不同类型的教育需求。众筹众创模式推动了优质教育资源的产生和共享,例如维基百科、百度百科以众筹众创的模式加速了知识的传递、集成与协同;IMOOC软件技能学习平台支持用户制作并上传教学视频,并划分等级进行收费[3]。与此同时,众筹众创模式的发展可依赖市场机制,丰富优质的教学资源,加大资源创新的力度,为构建开放、协同的教育生态系统提供了新的途径。
..........................
1.2教育知识图谱研究现状
谷歌公司于2012年提出知识图谱(Knowledge Graph)的概念之后,各个领域开始将传统技术与知识图谱融合。谷歌最初采用FreeBase[5]知识图谱改善搜索引擎的检索效率,随着知识图谱发展的成熟化,知识图谱被运用于更多的场景,如智能问答、辅助决策、个性化推荐等。
在教育领域,知识图谱旨在为学习者提供更加组织化的教学内容,提高学习者获取知识的效率,同时为学习者制定个性化的学习路径。教育知识图谱是学科知识点间的相互关联,而这种关联往往自身也是一种知识表现,需要学习者掌握。同时,合理运用知识点的关联数据能为学习者循序渐进地推荐优质的教学资源,提高学习者的积极性[6]。在传统教学理念中,知识图谱是一种概念图[7]的表现形式,其需要大量的构建成本。以慕课为例,在专家构建的知识系统中,知识点通常是相对固定的。在众筹众创模式下,新的知识和资源会源源不断的涌入,如何对其进行抽取、融合、表示乃至最后的运用,都是值得探讨的问题。
其中,很多研究者对教育知识图谱的构建进行了研究,早期学者围绕概念图进行研究,概念图是以图示化的方式组织概念以及概念间关系的图模型[8],用于表示概念体系。其中LAOS模型以概念图的方式对领域知识进行建模[9];KAO等人将概念图与模糊推理相结合,用于评估学习效率[10]。后来,研究者将研究方向从概念图转变为知识地图。由于教育知识图谱最终围绕教育资源进行构建,因此需要将概念图与教育资源进行链接,形成知识地图[11]。随着知识图谱时代的到来,各组织机构开展了教育知识图谱的构建工作。其中,Knewton机构构建了基于知识图谱的跨学科知识体系,其中包含概念及其先决关系;Wolfram Research 融合了多元异构的互联网垂直领域知识构建了Wolfram Alpha知识库,提高了知识检索的效率。在国内,清华大学许斌等人组成的研究团队搭建了eduKG基础教育知识图谱系统,包含知识检索、智能问答等多应用场景;北京师范大学开发了基于知识图谱的教育辅助决策系统[12];华中师范大学提出了基于潜在语义分析教育的知识图谱构建方法[13]。
.................................
第二章 知识图谱生成与质量评价相关研究基础
2.1知识图谱研究基础
知识图谱是一种基于图存储技术的信息表示结构,与传统的关系型数据结构不同,知识图谱能反映不同信息之间的多种联系,并基于算法对潜在知识进行推理、预测,为智能问答、推荐系统等上层应用提供底层支持。本章主要基于众筹众创教育知识图谱生成场景,介绍了知识图谱生成的相关技术以及其质量评价的基础研究。
2.1.1 知识图谱基本概念
知识图谱是一种知识组织结构,由相关领域知识库中的异构数据提取整合得到的关联实体构成,是描述实体间关系的语义网络[24],分为模型层(model layer)与数据层(data layer)。模型层构建又称为本体构建,研究者通常基于认知构建某一领域的常识性模型。常用的本体构建语言包括RDF、RDFS、OWL等[25]。数据层的构建以实体(entity)和关系(relation)为基准单元,其中实体代表当前知识图谱本体的实例,关系反映了实体间的关联。知识图谱构建的中间单位是实体关系三元组(tuple),其中包含头实体(head)、关系(relation)、尾实体(tail),以<head,relation,tail>的形式存储,例如<姚明,妻子,叶莉>表示了人物关系,<数据结构,包含,数组>表示了学科知识点的关系等。知识图谱的数据格式结合可视化技术,可以直观的表现出数据间的关联,结合图查询技术能对三度关联以上复杂的数据进行高效的检索。
知识图谱在知识覆盖范围上可分为专业知识图谱与通用知识图谱[26],前者基于领域内数据构建,知识具有专业性和精确度;后者数据量大,具有通用性,实体关系一般为常识,能为用户提供搜索与推荐服务,通常采用网络聚合的方式对知识库进行扩充更新,如基于Wiki的DBpedia[27],基于多数据源的Yago[28]等。由于众筹众创教育资源知识图谱的特性,其构建可认为是两者的结合,基础框架为专业性较强的学科知识图谱,教育资源实体作为扩充数据链接到学科图谱中。随着时间的增长,用户为平台提供优质的教学内容,教育资源知识图谱也需要随之扩展。因此,一种好的知识图谱构建方案对其质量有着重要的影响。
.................................
2.2知识图谱生成技术
知识图谱生成技术将多源异构数据自动抽取候选知识要素,提取整合并进行初步质量筛选,获得候选三元组。近年来,信息抽取的研究分为实体抽取、关系抽取和事件抽取等方向;研究内容主要为半结构化与非结构化数据的抽取,其中从非结构化数据中抽取三元组信息,被海内外学者广泛关注。本章节主要介绍针对非结构化文本的知识抽取方法。
2.2.1 实体命名识别
命名实体识别(Named Entity Recognition,NER)又称为实体抽取,是自然语言处理的基本任务,其目的是挖掘非结构化文本数据中的命名实体并对其进行分类。实体抽取是知识图谱生成的基础,为后续的关系抽取提供高置信度的命名实体,对生成知识的质量有很大的影响。
实体抽取自从1991年被提出这一概念起[37],研究方向包括领域内抽取与开放域的抽取,领域内抽取又分为基于规则与字典、机器学习、深度学习等多个研究方向。早期研究者基于模板与规则的系统[38]进行知识抽取,利用规则体系与字符模板为某一类待命名实体指定规则,基于模式匹配算法对实体进行识别。其中经典的抽取系统包括Netowl[39]、Proteus[40]等,其优势在于构建好的专家系统抽取的实体置信度较高,且构建字符模板相对简单,无需大量数据的训练测试。然而,这种方法也具有很大的局限性。其一,规则模板编写成本高,针对新的数据集需要新增规则,增加了人力成本;其二,对于不同数据源,规则模板不可移植,在通用知识图谱的构建上缺少扩展性。
考虑到规则模板的抽取能力有限,研究者逐步用机器学习代替规则模板。机器学习将实体抽取转化为序列预测问题,早期研究者基于训练好的隐马尔可夫模型对标记的命名实体进行预测,使用文本块标记器进行实体命名识别[41]。Finkel等人使用条件随机场预测实体序列,提出BIO标注模式,将实体划分为头部、中部、尾部序列组,使用概率模型进行预测[42]。在此基础上,衍生出动态CRF的理论,结合随机场与动态贝叶斯的思想,学习推理模型的参数[43]。Prokofyev等人提出借助外部百科资源可提高抽取准确度的理论,为先验知识的引入提供了理论导向[44]。
.................................
第三章 知识图谱实体关系抽取方法研究 ............................ 14
3.1 知识抽取问题研究 ............................... 14
3.2 命名实体序列标注模型 ........................ 14
第四章 知识图谱生成资源评价算法研究 ........................... 30
4.1 知识图谱质量评价问题研究 ................................... 30
4.2 众筹众创网络资源质量评价方法 .............................. 30
第五章 教育资源知识图谱生成评价系统设计与实现 ........................ 44
5.1 教育知识图谱生成评价系统设计 .................. 44
5.1.1 系统需求分析 ....................... 44
5.1.2 数据库设计 ................................... 45
第五章 教育资源知识图谱生成评价系统设计与实现
5.1教育知识图谱生成评价系统设计
5.1.1 系统需求分析
在基于众筹众创教育资源生成聚合平台运营过程中,除了结构化组织的数据,往往包含大量图结构的数据,如知识导图、关系图等。随着教育资源的生成与聚合,为了给资源提供推荐、搜索等基础算法服务,需要实时更新教育资源知识图谱,并对其进行管理。
教育资源知识图谱生成评价系统主要使用对象为教育资源的管理者或组织者,或对资源推荐、搜索、智能问答有需求的第三方用户,旨在为其提供基础或定制的服务。因此,系统需要具有面向构建流程、可操作性强、异构高可用扩展的特点。
(1)面向构建流程
领域知识图谱的构建经历知识生成、融合、质量评价等多个步骤。平台在支持各项算法服务的基础上,需要有串联这些服务的能力,将具体的服务流程化,使算法输入、输出对用户不具有可见性,降低用户操作难度,并实现流程追踪,构建过程可视化管理。
(2)异构高可用扩展
由于知识图谱算法服务部分基于python进行训练与服务搭建,Web端采用基于java语言的springboot框架构建,因此系统为异构服务架构。传统微服务架构下的服务通信由于其数据驱动、IO密集的特点,因此使用同步的网络通信。但在异构服务架构下,算法服务包含耗时的IO密集型任务,同步阻塞请求会造成线程阻塞,浪费计算资源,降低用户体验。再者,网络通信的可靠性随着数据量的增加而下降。因此,需要引入一种异步、可靠的消息通信机制作为异构服务的通信中间件。
具备高可用性(High Availability)特性的系统,通常需要经过专门的设计,长时间保持其服务的高度可用性,减少停工时间。由于系统的计算密集任务在算法服务中进行,算法服务需要具有高可用的特点,支持算法模块的横向与纵向扩展,在后端网关处实施负载均衡策略,保证任务的均衡分配。
软件工程论文参考
................................
第六章 总结与展望
6.1论文总结
本文提出了一种针对众筹众创教育资源知识图谱的生成与质量评价方法。文章首先对当下数字教育领域的众筹众创教育资源的产生与发展做了介绍,并分析其中存在的问题与解决方案。其次对当下教育知识图谱的发展和生成质量评价进行研究,对本文研究内容与结构做出安排。
本文对知识图谱基本概念做出介绍,并对知识图谱生成技术与质量评价相关工作进行调研与分析,提出了当前工作的不足之处,为本文的创新点做铺垫。第三章中,为了改进传统信息抽取中命名实体识别对教育实体抽取存在的准确性问题,本文提出了一种基于迁移学习的命名实体识别编码器ConvEncoder,使用全局特征抽取模块提取语义特征,使用多重卷积提取术语的局部特征,并接入注意力机制使模型判别各模块权重,抽取得到最后的结果。实验表明该模型在教育术语的抽取比传统模型拥有更高的准确度。同时,本文基于BERT模型对教育学科知识点实体进行了关系抽取研究,根据先验知识获得知识点的上下位关系,得到了较好的效果。
在本文第四章中,为了解决众筹众创教育资源知识图谱生成质量的缺陷问题,本文提出了一种基于多决策模型的知识图谱生成资源质量评价方法,使用多个机器学习分类器对待评价资源进行分类,再基于熵增益权重与投票机制对资源进行打分和评级,并在众创资源社区的代表——百度百科提供的词条数据集上进行实验,获得了较好的结果。
在基于上述工作,本文构建了一套教育知识图谱生成与质量评价系统,将教育资源知识图谱的抽取方法、质量评价工具进行整合,以可视化的形式展现给用户,将相关的算法研究进行初步的落地实践。
参考文献(略)