辅助阅读系统的软件工程研究与实现

论文价格:0元/篇 论文用途:仅供参考 编辑:论文网 点击次数:0
论文字数:**** 论文编号:lw202329868 日期:2023-07-22 来源:论文网
本文是一篇软件工程论文研究,本文主要工作包括以下几个方面:(1)兴趣模型的构建。根据用户提供的基本信息,在所实现系统中能成功建立用户兴趣模型,解决了用户的个性化问题,并且对其所涉及的兴趣结点的插入、兴趣模型的更新与维护等操作均已实现。(2)阅读定位,通过利用兴趣社区与阅读文章构成的话题网络之间语义和结构上相似度的比较,确定二者之间的映射关系。实现了为用户推荐阅读内容,并且确定了阅读过程中的阅读区域,从兴趣点作为切入的阅读顺序,有效的加深用户对阅读内容的记忆。(3)阅读扩展,在系统中通过采用向量匹配的方法,在参考文献与引用阅读文章的文献中匹配到与阅读内容相关的信息,在系统中供用户阅读,在一定程度上帮助用户理解阅读内容。(4)辅助阅读系统设计与实现,对兴趣模型、阅读定位和阅读扩展功能上做以分析,同时对用户需求和阅读行为进行了解,利用 SpringBoot+BootStrap 进行系统编码,最终完成对辅助阅读系统的实现。


第一章 绪论

1.1 课题背景与意义
用用户在阅读中常常需要快速在文章中获取感兴趣或者需要阅读的内容。在这种情况下,用户经常采取快速浏览之后确定目标内容所在位置的做法,尤其是研读一个新领域的文章或者查阅其他文章中自己感兴趣或者与自己学习研究相关内容时。这需要用户投入较大的无用精力消除冗余信息,降低了用户的阅读效率。
目前在文章中定位阅读内容包含如下三种方式:
(1)阅读整篇文章,然后找出需要的知识点所在位置,认真阅读。这是最安全的方法,没有任何遗漏,并且非常准确。但是当文章太长时,需要排除掉大量无关信息,这将是最耗时的。因此,这是不可取的。
(2)通过目录查看,阅读章节内容,缩小了筛选范围,但仍需对所选目录进行判断,进一步找到兴趣知识点所在位置,虽然时间比方法一要短,但是准确度有所下降。
(3)crtl+f 查找。如果输入关键词过多,则会出现全匹配,必须连续包含才会有结果,如果关键词过少,则会出现过多待选项,同时也要对输入的关键词进行斟酌,防止无效输入,所以也不可取。

本文针对兴趣模型的度量兴趣社区或者是用户手动输入的关键词序列,在文章中进行映射,依据二者相似度比较,确定起始阅读区域,尽量确保定位的准确度。在用户阅读过程中,针对兴趣偏移也做了进一步的处理。
在现代智能互联的社会,每个人的知识储备不同,对问题的理解方式也不同,即使阅读同一篇文章,不同的读者阅读同一篇文章对其感兴趣的内容段落也会有所不同,本文为每个用户建立独立的兴趣模型,确保完成个性化的需求。现阶段文本推荐可以有效的为用户推荐相关文章[8],但是关注点只在文本,读者还需去阅读所有推荐文本才能获取所感兴趣的知识,本文所设计的辅助阅读系统针对阅读文章作以定位,帮助用户快速从文章中获取所需知识。

.........................

1.2 国内外研究现状
目前网上阅读系统,大部分为小说建立,凭借情节来吸引用户阅读,而针对学术文献的阅读系统大多只是提供阅读记录,方便撰写参考文献,对理解和阅读上无其他帮助,此外学术文献大多是枯燥的,难以真正吸引用户长期阅读;而学习系统引申的阅读系统,大都只注重趣味性,利用一些简单的知识点吸引用户互动,用户群体多为中小学生;此外国内的一些外文阅读系统,大多是在页面提供内容与翻译。
现阶段随着互联网的发展,图书馆也建立了一些网上图书馆,读者在阅读时依然是搜索书籍,然后通篇浏览,找到自己所需的部分知识,这个过程是比较耗时的,对于一些自制能力差的读者,往往读到一半,便已放弃。如孔悦凡提出的“悦享在线”阅读系统主要通过积分、消费、交流来吸引大学生使用,以此来培养大学生的阅读习惯与阅读态度[14]。
在阅读文本方面,方高林提出对文本中出现的字基于语义分析后在词典中查询意义,作出解释[31];卢晓东提出在阅读外文网页时作出筛选对一些特定词进行翻译,对预设的关键词进行级别划分,帮助用户快速浏览外文网页[39]。Craig Boyle 提出的 Metadoc 阅读系统可以根据节点和链接修改阅读文本,呈现不同级别供用户阅读[34]。Chien-Chuan Ko 提出的阅读系统主要是帮助有阅读障碍的残疾人士阅读,系统主要注重物理,感官和认知[12]。Tyan 提出的阅读系统主要用于从技术图纸读取文本描述,将纸质文档转换为电子文档存于数据库系统中[13]。
方高林与卢晓东提出的阅读系统主要是对阅读内容中的单词或字做简单翻译和解释,对于句子或者段落方面则有些不足。Craig Boyle 提出的阅读系统主要是在认知方面,让不同层面的读者读到的感受不太相同,对于认知层次低的读者而言,相对易于理解,但是对于认知层次高的读者,则很难将阅读文本进行高层次的扩充改变而保留原意不变。Chien-Chuan Ko与 Tyan 二者设计的阅读系统,前者注重物理与感官的体验,对于内容则涉及比较少,后者注重阅读内容的转换与保存,语义方面设计较少。
...............................

第二章 相关背景知识介绍

2.1 模型表示
兴趣模型是根据用户个人兴趣和行为建立的模型[26]。主要用来捕捉并记录用户在某段时间内相对稳定的信息需求,它不仅是对个别用户的一般性描述,也是一种面向算法,具有特定数据结构和形式化的用户描述[27]。
兴趣模型按照不同分类又可分为以下几类:依据时间划分为长期兴趣与短期兴趣,其中长期兴趣指不容易随着时间而变化的兴趣,相对稳定,短期兴趣指变化比较频繁的兴趣[2];依据表现划分为显式兴趣与隐式的兴趣,其中显式兴趣指用户能显式并愿意主动显示的兴趣,如用户选择性别倾向,订阅频道,隐式兴趣则指用户难以直接表述的,但是潜在的用户会不自觉有相关倾向[26]。如用户常打开 APP 的时间,常浏览和点击的内容;依据对象则可按照倾向的对象来分,如购买的兴趣,交叉的兴趣,阅读的兴趣,不同的兴趣具有一定的关联,需要识别的行为操作也不一样[28]。

模型表示有如下几种表现方式:
1.关键词列表表示法:用户的兴趣模型是由个或者多个用户感兴趣的关键词所构成的关键词序列来表示[33]。例如某用户对足球十分感兴趣,则用户的兴趣模型可能表示成如下形式{世界杯,阿根廷,梅西,前锋},用户兴趣关键词的获取方式主要由用户主动提供和系统隐式自动获取两种,目的在于找出样本中反映用户兴趣的关键词序列[30]。
2.基于布尔模型的表示方法:布尔模型是最简单的一种模型,它是建立在布尔代数理论的基础上,其中,每个关键词在文档中只有两种可能,包含或不包含,因此关键词的权值只有两个可能值和,其中,表示文档包含该特征词,则表示文档不包含该关键词[28]。布尔模型的构造简单,易于理解,但是它的缺点也很明显。布尔模型只能执行简单的布尔查询操作,没有把文档和用户兴趣的相关度排序的概念,也不能反映出每个关键词对文档的重要程度[29]。
........................

2.2 文本处理
本小节介绍一些基本的文本处理操作:
a)分词
虽然英文单词中是有空格进行分隔的,但是也存在一些特殊情况,比如:带有缩写或者连接符的单词(”can’t”、”N-gram”)和复合短语(”Data Structure ”),所以有必要对英文也进行分词处理。停用词虽然在文中反复出现但是并没有实际意义,反而会浪费存储空间和降低分词效率,所以在对文本进行处理之前,一般都都将停用词过滤掉。目前广泛使用的停用词表是通过人工输入的方式生成的[37]。
b)词干提取
词干提取的目标是将不同词形的单词都变成其原形,也就是去除词缀得到词根的过程。词干提取使用启发式处理的方法来截取单词的尾部,以提取单词的原形。在英语中,经常会有很多单词的变形,例如动词的变形,有过去时,将来时,现在进行时等不同场合,动词需要变成相应的形态,而名词又有单数和复数的概念,可数名词要在单词末尾加 s 等。例如要识别字符串“cats”、“catlike”和“catty”是基于词根“cat”。词干提取算法有查找法、后缀去除法、lemmatization 算法、随机法、匹配法和 N 元语法分析等。
c)词类标注
词类(part-of-speech)是词汇基本的语法属性,通常也称为词性或者语法。词类标注就是在给定句子中判定每个词的语法范畴,确定其词类并加以标注的过程,一个词的词性由其在所属语言的含义、形态和语法功能决定。常见的词性标注算法包括隐马尔可夫模型(HiddenMarkov Model, HMM)、条件随机场(Conditional random fields, CRFs)等。

............................

第三章 兴趣模型构建................................11
3.1 相关工作............................................11
3.1.1 WordNet 介绍..........................................11
3.2 兴趣模型的建立............................................ 12
第四章 定位与扩展研究..................................... 20
4.1 阅读定位....................................20
4.2 阅读扩展.........................................22
4.3 本章小结..........................................23
第五章 辅助阅读系统设计与实现........................................... 24
5.1 系统需求与分析.................................. 24
5.1.1 系统需求............................. 24

第五章 辅助阅读系统设计与实现

5.1 系统需求与分析
5.1.1 系统需求
系统功能需求分析是从用户的业务需求角度对系统建立用户模型。该系统面向的适用对象是学生,教师,以及研究人员。该类对象的特点是在工作或者学习过程中,均需要大量阅读相关资料,因此该系统的是为这些人员提供一个快速获取,方便理解阅读内容的一个平台。该系统主要分为以下几个模块:
1)用户注册模块:在用户初次使用时,需要提供部分信息,构建用户兴趣模型。
2)阅读定位模块:依据兴趣模型产出的兴趣社区与阅读内容进行相似度计算,选取兴趣社区,确定起始阅读区域,依据关联性,确定阅读顺序。
3)阅读扩展模块:在阅读定位内容时,需要相关文献中,抽取与阅读内容相关的信息,处理后显示给用户阅读,帮助用户验证和理解作者所述观点。

4)页面显示模块:需要设计界面,让用户在阅读时可以多窗口浏览,每个窗口内信息均不同,但又有关联,故此本文采用页面嵌套的方式,在大页面中划分不同区域,每个区域内显示内容供用户阅读。

.............................

第六章 总结与展望
本文设计并实现了辅助阅读系统。该系统利用用户信息构建用户兴趣模型,将兴趣社区与阅读内容作映射,重构了兴趣文章的阅读顺序;并以参考文献为基础,对阅读内容进行扩展;同时根据用户阅读内容实时更新用户兴趣。
本文主要工作包括以下几个方面:
(1)兴趣模型的构建。根据用户提供的基本信息,在所实现系统中能成功建立用户兴趣模型,解决了用户的个性化问题,并且对其所涉及的兴趣结点的插入、兴趣模型的更新与维护等操作均已实现。
(2)阅读定位,通过利用兴趣社区与阅读文章构成的话题网络之间语义和结构上相似度的比较,确定二者之间的映射关系。实现了为用户推荐阅读内容,并且确定了阅读过程中的阅读区域,从兴趣点作为切入的阅读顺序,有效的加深用户对阅读内容的记忆。
(3)阅读扩展,在系统中通过采用向量匹配的方法,在参考文献与引用阅读文章的文献中匹配到与阅读内容相关的信息,在系统中供用户阅读,在一定程度上帮助用户理解阅读内容。
(4)辅助阅读系统设计与实现,对兴趣模型、阅读定位和阅读扩展功能上做以分析,同时对用户需求和阅读行为进行了解,利用 SpringBoot+BootStrap 进行系统编码,最终完成对辅助阅读系统的实现。
参考文献(略)
如果您有论文相关需求,可以通过下面的方式联系我们
客服微信:371975100
QQ 909091757 微信 371975100