基于数据挖掘的地方院校图书馆学生借阅行为研究——以鄂尔多斯应用技术学院为例

论文价格:0元/篇 论文用途:仅供参考 编辑:论文网 点击次数:0
论文字数:**** 论文编号:lw2023184 日期:2023-06-18 来源:论文网
通过以上分析可得出:(1)从总体上分析,学生读者对图书馆的利用率较低,读者的借阅数量很小。(2)读者阅读趋向也会受到教育背景的影响,大部分读者去图书馆会借阅和自己专业相关的书籍,学生借阅书籍受专业影响比较大。(3)部分基础类的图书被借阅次数较高等。

1 绪论

1.1 研究背景及意义
高校图书馆管理信息系统不断沉积了大量的数据,如何让这些数据为管理者所用,越来越多的学者投入到这样的研究当中。

1.1.1 研究背景

随着计算机技术的快速发展,我们日常生活中的各行各业逐步采用数字化的管理方式来替代传统的人工管理,这样就会有大量的数据积累,而这些海量数据会存在一定的有价值的信息,这些信息会是领导者决策的依据[1]。我们现在需要解决的问题是如何从海量的数据中挖掘出对于我们有利的信息来辅助我们决策。数据挖掘是一种从海量数据里挖掘有效信息的方法,那么如何在海量数据里面挖掘出有利于我们的信息是很困难的事情,因此,国内外很多学者都在做相关的研究[2]。现在,数据挖掘技术在电子商务、科学钻研、医疗研究、教育教学研究领域有广泛的应用。一直以来,高校图书馆在高校的讲授与科研方面都承担着一个很主要的任务,馆里藏有的各种图书、期刊、杂志和影音数据等等,师生可以使用图书馆来提升知识储备、找寻疑问解答,同时养成良好的阅读习惯和提升阅读兴趣。而随着数据库技术的飞速发展和管理信息系统在大学图书馆中的普遍应用,图书馆学生借阅的所有流通数据已经积存在图书馆的系统数据库中,这部分数据中其实蕴藏着许许多多有用的信息。怎样运用数据挖掘技术从图书馆的海量数据中发掘出有价值的信息,获取学生的借阅行为,给学生提供个性化的信息推送服务,提升学生的满意度,不仅是高校图书馆亟待解决的难题之一,同时也是数据挖掘技术研究领域所关心的热点之一。

1.1.2 研究意义
高校图书馆的不断积累下来的大量的学生借阅记录。可以给学生借阅行为的分析提供很好的依据。本文利用数据挖掘技术的聚类和关联规则分析方法对历年的学生的借阅记录进行了挖掘和分析,通过使用聚类算法将读者划分成不同的群体,从专业、性别、年级、借阅时间段等分析读者的借阅特征。利用关联算法,剖析了学生的借阅行为(比如借阅偏好、借阅次数、借阅时段及频率)及其与学生的专业、性别、年级、借阅时段等因素之间的关联,总的来说,通过对大量学生借阅数据的挖掘,得出学生借阅的规律,把挖掘的结果反馈给管理者用于指导学生借阅,为图书馆提高资源利用率,提升服务水平提供理论支撑。
............................

1.2 数据挖掘技术国内外研究现状
Knowledge Discovery in Database(知识发现)一词是在 1989 年 8 月在美国召开的国际联合人工智能会议上被提出的。这也就说明了数据挖掘技术早在上个世纪八十年代就在美国起源[3]。数据挖掘技术的不断进步,使得银行、金融、电子信息、保险等行业先于其他行业利用数据挖掘技术为组织服务。并且数据挖掘技术在银行业运用已经非常广泛[4]。自 1995 年以来,有关数据挖掘的大量学术文章在国外出现。数据挖掘技术已然成为了一个流行的研究方向。自 1997 年以来,《Knowledge Discovery and Data Mining》杂志专门刊登数据挖掘相关的理论研究进展。在互联网上也有了专门的讨论平台和电子连续出版物等[5]。数据挖掘是从大量的数据中提炼出有价值的知识和信息的过程,这就好像是从大量的矿石中提炼黄金一样[6]。目前,美国人工智能协会举办的一年一度的 KDD 顶级数据挖掘学术会议每年都吸引着来自全世界的 2000 多名顶级数据挖掘专家知名企业参加。而中国的学者越来越多的参与到了 KDD 会议中。研究的内容也逐渐从方法演变到程序应用、学科之间互相互通上[7]。数据挖掘技术由于它可以为组织决策提供巨大支持,让企业因此收获巨大经济利益,所以受到了学术界的广泛关注。从而,国内外的学者都加入到了数据挖掘的理论技术和应用的研究中,产生了大量的学术成果和成功的企业应用案例。
在数据挖掘领域,我国也展现了欣欣向荣的场面。1993 年,数据项目首次得到了国家自然科学基金的支持。如今,我国很多的科研机构以及高等院校都在数据挖掘方面进行了基础理论和应用研究。例如,北京大学开展了数据立方体代数的研究,北京系统工程研究所开展了模糊方法在知识发现中的应用进行了较为深入的研究。华中理工大学、中国科技大学、复旦大学、中科院数学研究所、浙江大学、吉林大学等高校进行了对关联规则算法的改造和优化[8];上海交通大学、四川联合大学和南京大学等高校讨论并研究了非结构化数据的知识发现以及 Web 数据挖[9];南京大学计算机软件新技术国家重点实验室徐洁磐、陈栋等人在研究国际新技术发展的同事,集成开发了一个原型系统—Knight[10]:该模型采用了统计方法和集成了其他方法的算法。该系统是一种通用的知识挖掘工具,可用于处理不同领域的知识发现任务,主要包括聚类分析、关联规则发现、分类规则发现、特征知识发现。自从1995 年提出“数据挖掘”的概念得到了很大的发展[11]。

..............................

2 相关理论知识和技术

2.1 数据挖掘
自二十世纪八十年代以来,现代信息技术得到了飞速的发展,数据库技术的迅猛发展,使得大量的数据得以保存。在这个信息爆炸式发展的年代,所有人都会面对信息过载这一现状。如何在海量的信息中不仅不迷失自己同时还要很好的利用它,是大家都需要考虑的事情。组织要想让这些数据能为自己的战略发展服务,必须要将这些数据转化成有助于自己战略布局和决策的资源才行,否则如此巨量的数据不仅不会为组织发展服务还会成为组织的累赘。所以,面对“数据丰富,知识贫乏”[42]的现状,数据挖掘技术迎着挑战到来。
2.1.1 数据挖掘定义

数据挖掘,又称数据库中的知识发现,Usama M. Fayyad 等给出的定义是:从大量的数据中取得有效、新颖、潜在有用、最终可理解的知识的收集过程。在国际会议上被认为“是对数据库中蕴含的未知、有潜在用途及非平凡知识的提取”。我国学者也对数据挖掘进行了研究总结,杨良斌认为“数据挖掘是从数据中汲取包含过往不被知道的有利用价值的潜在信息”;化柏林认为“数据挖掘是从大量、不完全、有噪声、模糊及随机的实际应用数据中,提取隐含在其中,但有一定用途的潜在信息和知识的过程”;汪明认为“数据挖掘是在大型数据存储中,自动发现有用信息的过程”[43-47]。
总而言之,数据挖掘就是一个对巨量数据处理的一个过程,包含了对巨量数据的收集、清洗、转换、集成等环节,以及通过数据挖掘的关联规则、类别划分技术对数据进行分析、对结果进行可视化呈现,使得潜藏在巨量数据中的关联关系被人们所认知。

............................

2.2 聚类分析
本节要讨论的聚类分析是一种应用广泛的非常重要的算法。聚类是将数据分类为不同类或者簇的过程,所以同一个类中的对象具有很大的相似特性,不同的类的对象具有很大的差异性。
该方法已经被应用于很多方面,商业、生物、地理、保险、网络等。本文讨论的数据挖掘就是其中一方面,对读者、书目、读者专业等进行信息提取、分类,挖掘各属性的特点,从而促进图书馆为读者进行更好的服务。
2.2.1 聚类分析的主要方法
聚类分析计算方法主要有如下几种:分裂法、层次法、基于密度的方法、基于网格的方法、基于模型的方法[52]。

(1)分裂法:首先创建 k 个划分,k 为要创建的划分个数;然后利用一个循环定位技术通过将对象从一个划分移到另一个划分来帮助改善划分质量。相关算法设计最多的有 K-mean 和 CLARANS 算法。

(2)层次法:创建一个层次以分解给定的数据集。该方法可以分为自上而下(分解)和自下而上(合并)两种操作方式。典型的这类方法包括:BIRCH 方法、CURE 方法、ROCK 方法和 CHEMALOEN 方法。
(3)基于密度的方法:根据密度完成对象的聚类。它根据对象周围的密度(如DBSCAN)不断增长聚类。典型的基于密度方法包括 DBSCAN 和 OPTICS 方法。
(4)基于网格的方法:首先将对象空间划分为有限个单元以构成网格结构;然后利用网格结构完成聚类。典型的基于网格的方法包括 STING 和 CLIQUE 方法。
(5)基于模型的方法:它假设每个聚类的模型并发现适合相应模型的数据。 典型的基于模型的方法为 COBWEB 方法。
.................................


3 数据挖掘准备工作 ............................. 16
3.1 数据挖掘工具简介 ......................... 16
3.2 数据来源 .................................. 16
3.3 初始数据预处理 ......................... 17
4 图书馆流通数据挖掘实施 .................................... 25
4.1 读者流通数据的聚类分析 ............................. 25
4.1.1 读者聚类分析 ................................ 25
4.1.2 图书聚类划分 ............................... 29
5 基于读者流通数据的挖掘结果分析............................ 37
5.1 基于聚类结果进行分析 ................................ 37
5.1.1 读者借阅数量聚类结果分析 .............................. 37
5.1.2 图书流通次数聚类结果分析 .................................. 37

5 基于读者流通数据的挖掘结果分析

5.1 基于聚类结果进行分析
首先我们对读者聚类结果和书目聚类结果进行分析。
5.1.1 读者借阅数量聚类结果分析
(1)基于读者借阅数量的聚类结果分析
针对读者借阅数量进行聚类,将读者分成了五类。五类读者的借阅数量差距比较大。

第一类(聚类-1)读者,该类读者非常活跃,平均借阅量最高。像这样的读者他们借阅量很大,主要原因是他们本身有很大的阅读需求,所以才会大量借阅书籍。图书馆应该对这类读者给予足够的关注。整理他们的阅读需求,适时地推荐他们需要的书籍。
第二类(聚类-4)读者,这类读者较为活跃,平均借阅量次高,对于次活跃读者图书馆应该主动进行读者推荐服务,通过馆藏推荐、增加借阅量、借阅时间等措施,引导他们成为活跃读者。读者服务人员应该着重对这部分读者加强指导和服务。
第三类(聚类-3)读者,这类读者的借阅量居中,是一些潜在的读者。读者服务人员应该将这部分读者列为重点关注对象,由于他们借阅量比一般读者要高,所以通过读者服务人员较好的引导和鼓励,他们可能会发展为次活跃读者,继而发展为活跃读者,所以,图书馆应该为这部分读者提供针对性的服务,引导他们加大借阅量。
第四类(聚类-5 和聚类-2)读者,该部分读者借阅量偏低,这类读者为一般读者。这部分读者占 80%以上,借阅量较低,主要可能有两方面的原因,一是本身没有阅读需求,可能有很多读者是尝试性的去借书,由于某些原因并没有继续借书,没有相关的阅读需求。还有一方面是图书馆所做的读者服务工作太少,没有有效的将读者吸引到图书馆里面。图书馆应该增强自己的服务工作,努力做到让更多的读者走进图书馆,提高读者的借阅量。
.................................


结论
阅读是大学生成长、成才的必经途径,也是知识型社会的基石。本文使用数据挖掘技术中的聚类算法、关联规则算法,对鄂尔多斯应用技术学院图书馆学生借阅数据进行了实证挖掘研究。得出了读者借阅册数聚类结果、图书被借阅次数聚类结果、全部读者借阅图书的关联关系、聚类基础上的书目关联关系、系部与书目之间的关联关系等。通过以上分析可得出:(1)从总体上分析,学生读者对图书馆的利用率较低,读者的借阅数量很小。(2)读者阅读趋向也会受到教育背景的影响,大部分读者去图书馆会借阅和自己专业相关的书籍,学生借阅书籍受专业影响比较大。(3)部分基础类的图书被借阅次数较高等。
根据以上挖掘结论,我们做如下分析与总结:
第一、信息技术的发展使得信息的生成、存储和利用都发生了很大的变化,越来越多的电子文献取代了传统的纸质文献。相较于图书馆传统的纸质文献,学生读者更愿意去阅读易于获取和阅读的电子文献。图书馆应该跟紧信息技术发展的节奏,改进传统的工作方式,从过去主要依赖的纸质图书馆向应用广泛的数字图书馆转变。
第二、现有的纸质图书馆的管理和服务工作也需要进一步改进。图书馆要为读者提供安静、科学、温馨的阅读环境;加大读者服务推广力度,举办更多吸引人的读者活动,提高图书馆的活力,以吸引更多的读者到来;提高读者个性化服务力度,留住更多的读者。提高馆员的综合素质;加大馆藏资源的建设,增加专业书籍、借阅数量多的书籍以及基础性书籍的建设,剔除一些老旧资源。
第三、鄂尔多斯应用技术学院是一所新建的应用型本科院校。从学生层次的角度来说,应用型本科院校的学生学习动机不足,借阅的积极性不高。但是这些学生在第二课堂的参与性又非常积极,非常希望得到外界的肯定与支持。图书馆应该很好的利用学生的这一特点,对学生进行积极的强化和引导,以帮助他们正确的认识图书馆,提升他们的学习积极性,借阅积极性。
参考文献(略)
如果您有论文相关需求,可以通过下面的方式联系我们
客服微信:371975100
QQ 909091757 微信 371975100