第一章前言
1.1研究背景
20世纪80年代,以兰开斯特为代表的专家甚至大胆预言“信息技术的发展将使得人类走向无纸社会”。与数字资源的生产能力相比,保存数字资源的技术和能力却远远滞后,造成了大量重要数字信息资源的流失,为人类科学文化遗产的长久保存埋下了隐患。加拿大学者Terry Kuny1997年在第63届国际图联大会上作的《“数字的黑暗时代”:电子信息保护的挑战》报告中指出:“在我们所处的数字信息时代,变化和速度比保护和长寿更为重要。数字化信息便于存取,但不便于保护。当今的许多文献都被转化为数字代码,或者用电子形式书写出来,但是它们可能会永远消失,这有点像中世纪的黑暗时代”。其目的就是唤醒人们保存数字信息的意识,呼吁图书馆员在保护传统信息的同时,还要考虑保护数字信息。近年来,数字资源长期保存研究在国际范围内已经获得了广泛关注。
1.2研究意义
随着数字资源发展成为科研与教育领域的主流信息资源,图书馆的馆藏已经从以印本资源为主发展到数字资源和印本资源并存,以电子资源为主。例如:截至2010年8月份,解放军医学图书馆已订购外文期刊5800余种(其中印本刊1000余种,电子刊4800余种),中文期刊9400余种(其中印本刊1500余种,电子刊9300余种),文献数据库50余种;已有电子图书8.3万余种,博、硕士学位论文40余万篇。在有限的购置经费下,为了发挥资金的最大效用,达到最佳信息需求保障度,数字书刊在馆藏中的比重不断增加,同时不得不减少传统印刷载体书刊的订购。由此我们不无担忧,一旦数字信息资源难以正常使用,整个图书馆的馆藏势必遭到重创。
1.2.1医学图书馆数字资源保存中存在的问题
医学图书馆的数字资源按来源可划分为:(1)引进资源,是指图书馆引进的各种国内外商用数据库,如Elsevier Science Direct Online、Springer、中国期刊网全文数据库等;(2)自建资源,指依靠本馆纸本书刊数字化加工生产的数字资源;(3)网络采集资源,指图书馆针对用户需求在网络上采集的可开放获取的免费资源;(4)缴送数字资源,即资源拥有者向图书馆缴送或捐赠的数字资源。目前,我们对数字信息资源的长期保存与维护还缺乏成熟、系统的经验方法,图书馆数字资源保障中还存在以下主要问题:
第一,数字馆藏建设缺乏长远规划。图书馆引进的一些数字资源,以购买当年使用权的方式引进,一旦合同终止,使用已购买数据的权利就会受到威胁。有的数据库商许诺停止购买后可以通过网络继续使用已购买资源,但还需要额外支付服务系统的使用费,或者只能使用被剥夺许多正常功能的“简版”系统,或者只能使用功能不再发展的旧版服务系统。
第二,部分图书馆纸本书刊数字化而来的资源,由于没有建立相应的知识组织机制和检索系统,或者没有采用通行的标准,造成了资源的检索和使用困难。
第三,对数据库提供商过于依赖。由于自然灾害、人为破坏、战争、法律纠纷、系统灾难性故障、国际争端等原因,造成数据库商或其委托的镜像服务商终止经营或停止向用户提供服务,也会造成信息服务机构失去对已购买资源的可持续使用权。
第四,数字资源的分布性和异构性造成资源利用不便。图书馆的数字资源分散在数十个不同的数据库中,这些数据库运行于非统一的、异构的软件系统环境,用户使用时需要了解各数据库的收录范围并熟悉各数据库的检索方法,才能确定到哪个数据库中去查找自己需要的资源以及怎样查找。各个数据库收录资源的交叉重复现象也较为严重,这往往迫使同样的一个查询题目用户不得不在不同的数据库中重复查找,这种无形的压力使得用户只能选用少量自己熟悉的资源和服务,产生了图书馆的资源和服务利用率低,用户的满意度也很低的情况。用户经常在报怨图书馆的资源太少,服务没有适应自己的需求,图书馆则责怪用户信息素养差和利用服务的操作能力差。
第五,商家主导,赢利目的。数字信息交流传播机制已经打破传统的图书馆主导的信息存储责任体系,部分剥夺了传统信息保存机构的保存权利。出版商直接向用户提供数字期刊检索阅览、图书馆通过使用许可向用户提供服务但并不一定实际拥有数字资源[4]。图书馆在馆藏发展上也受到某些限制,这样的限制包括信息的数量和主题的分布。从数据商那里订购期刊数据以获取使用权,图书馆对数据库所包括的期刊种类、内容、数据形式与其中的增删与变化没有挑选及决定的权利,从这个角度来看,图书馆对数据控制的主导权将可能会转移到数据商的手中。因此急切需要重新定义和建立数字资源长期保存的责任体系。第六,各自为政,重复浪费。由于缺乏统一的规划和指导,目前我国的各个数据库公司都是各自为政、独立生产,各个数据库又一味追求收录数,同一种期刊或者同一篇文章常被几个数据库同时收录。我们以国内的CNKI、万方、维普三大全文数据库收录的图书情报档案类期刊为统计对象,通过对图书情报档案类期刊重复量的统计来预见总体。
截至2007年4月26日,CNKI共收录图书情报档案类期刊74种,其中73种同时被维普全文数据库收录;万方全文数据库共计3收录39种,其中有36种同时被维普收录,36种同时被CNKI收录,未被维普收录的三种是《黑龙江档案》、《中国典籍与文化》、《中国科技期刊研究》,未被CNKI收录的三种期刊是《数字图书馆论坛》、《中国典籍与文化》、《中国科技期刊研究》。图书馆单独引进上述三个数据库的任何一个都不能达到最高文献保障度,最终只得同时引进三个数据库,形成了资源重复建设和浪费现象。数字资源保障中存在的上述问题和数字资源长期可持续使用面临的潜在危险使馆藏建设长期规划蒙上了阴影。由于担心数据能否长期使用,图书馆对于一些重要的书刊在购买数字版的同时,也购买了纸本资源。由此在馆藏建设中产生了这样的矛盾:一方面不断扩大数字资源的比例,另一方面又害怕它的扩大,这种矛盾心理严重阻碍着馆藏的发展。因此,数字资源长期保存问题是图书馆资源建设中紧迫的现实问题。鉴于这些原因,需要考虑建立图书馆自己的数字资源长期保存系统,把图书馆自建的和订购的中外文数据库中的数字资源保存下来,以增强对知识资源的控制权,保证对数字资源的长期可持续使用,为用户提供更稳定、优质的信息服务。
1.2.2构建数字资源长期保存系统的必要性和可行性
建立图书馆自己的数字资源长期保存系统对于数字资源保障中存在的上述问题的解决具有重要意义:
(1)把从数据库商处购买的只有网络访问权的资源保存到本地系统中,在图书馆停止购买后仍然可以继续使用这些资源,从长远来看更加稳妥可靠;
(2)本馆馆藏文献数字化而来的数字资源也可以存放在该系统中向用户提供服务;
(3)图书馆可以自主决定该系统所包括的期刊种类、内容、数据组织形式与其中的增删与变化,进而突出本馆资源的专业特色;
(4)摆脱对数据库商的过份依赖。把只能远程访问的资源(特别是外文数据库中的资源)保存到本地之后,战争、国际争端、自然灾害等原因造成数据库商不能向用户提供服务时,我们依然可以使用已经购买的资源;
(5)可以通过长期保存系统把图书馆分布在不同数据库中的资源整合到一个系统中来。建立图书馆自己的数字资源长期保存系统不仅具有必要性,技术上也是有可能实现的。对于数字资源的长期保存问题,国外的一些发达国家早在20世纪90年代初就开始关注,目前已经取得了一系列的技术成果。欧美发达国家的图书情报机构已经建成了诸如e-Depot、Portico、LOCKSS、DSpace、Fedora等投入实际服务的长期保存系统,虽然这些系统保存功能的通用性和完整性还有待完医学图书馆善,但已经让数字资源长期保存从理论走向实践成为可能。1.3数字资源长期保存系统简述
计算机技术和网络通信技术的发展使得加工、处理、传输数字信息的能力大大增加,在过去的几十年中产生了海量的数字信息资源;要有效利用数字资源面临着一系列问题:怎样合理和有效地对海量数字信息进行组织、检索、访问、利用?怎样有效利用互联网的优势向用户提供海量数字信息服务?针对这些问题,美国科学家在90年代初提出了数字图书馆这一概念,数字图书馆是以电子格式去存储海量的多媒体信息并能对这些信息资源进行高效的操作,如插入、删除、修改、检索、提供访问接口和信息保护等。
数字图书馆不仅对传统图书进行数字化,而且还收藏原生数字资源。同时通过对各种资源的深加工和合理、有效的信息组织,使之成为永久、有序的知识源泉。从技术的角度来看,数字图书馆定义如下:一个数字图书馆是一个有效管理的数字对象集(内容)和服务集(功能),服务集是与存储、发现、检索和保存数字对象相关的服务功能。
数字资源长期保存系统与数字图书馆系统紧密联系而又存在一定的区别,它不仅应具有数字图书馆系统的基本功能,还需要满足长期保存的需求。所谓数字资源长期保存是指保证数字形态的信息资源可长期维护和其内容可长期获取,这里有两层含意,一是长期存储,二是长期可获取。长期在这里也有它的特殊含义,即这个资源被社会所需要的时间。本文所论述的数字资源长期保存系统可理解为强调保存功能的数字图书馆。
第二章构建医学图书馆数字资源长期保存系统的总体思路..............9
2.1医学图书馆数字资源长期保存系统的保存对象与功能要求......................9
2.2医学图书馆数字资源长期保存系统功能框架............................................10
2.3数字资源长期保存相关技术........................................................................13
2.4本章小结........................................................................................................17
第三章医学图书馆数字资源长期保存元数据方案设计....................19
3.1保存元数据的含义........................................................................................19
3.2医学图书馆保存元数据方案设计的原则与方法........................................20
3.3数字资源长期保存所涉及信息范围的界定................................................21
3.4基于OAIS参考模型的保存元数据框架....................................................22
3.5医学图书馆保存元数据方案元素集的确定................................................23
3.6医学图书馆保存元数据方案整体结构与全部元素详细说明....................42
3.7本章小结......................................................................................................109
第四章医学图书馆保存元数据方案的语义结构标准......................111
4.1医学图书馆数字资源唯一标识符取值规范..............................................111
4.2医学图书馆主题元素标引规范..................................................................115
4.3本章小结......................................................................................................119
第五章总结与展望..............................................................................121
5.1论文的主要工作..........................................................................................121
5.2创新点..........................................................................................................122
5.3论文的不足..................................................................................................122
5.4需要进一步研究的问题..............................................................................122
参考文献.............................................................................................125
第五章总结与展望
要保障图书馆能够向用户提供长期、稳定、可靠、优质的信息服务,维系图书馆在信息交流服务体系中生存和发展的空间,图书馆需要建立自己的数字资源长期保存系统,获取更多的数字资源控制权。本文主要分析了构建医学图书馆数字资源长期保存系统的技术应用所面临的主要问题,着重探索构建医学图书馆数字资源长期保存元数据方案。
5.1论文的主要工作
论文首先论述了建立医学图书馆数字资源长期保存系统的必要性和可行性,探讨了数字资源长期保存系统与普通数字图书馆系统的区别与联系,分析了构建数字资源长期保存系统所面临的关键问题,并将其概括为三个方面(信息组织、长期保存、标准规范),在此基础上分析了保存元数据标准规范在数字资源长期保存过程中的作用,并在文献调研的基础上分析了国内外数字资源长期保存元数据研究的现状,提出了建立医学图书馆数字资源长期保存元数据标准的必要性。构建符合标准规范的医学图书馆数字资源长期保存元数据方案是论文的核心内容。
在第二章“构建医学图书馆数字资源长期保存系统的总体思路”中,探讨了数字资源保存系统需要具有哪些功能才能实现对数字资源的长期保存;参照OAIS功能模型构建了医学图书馆数字资源长期保存系统功能框架;对数字资源长期保存相关技术进行了梳理归纳。
在第三章“医学图书馆数字资源长期保存元数据方案设计”中,界定了数字资源长期保存涉及的信息范围;分析概括了数字资源长期保存元数据应该记录的信息内容,参照OAIS信息模型提出了一个由技术元数据、保存元数据、描述元数据、管理元数据构成的4层医学图书馆数字资源长期保存元数据顶层框架;在比较分析国内外主要数字资源长期保存项目和数据库生产商的元数据方案之后,参照我国数字图书馆项目组制定的元数据标准规范设计指南确定了医学图书馆数字资源长期保存元数据方案的元素集,并对元素定义和语法描述方法进行了说明。
在第四章“医学图书馆保存元数据方案的语义结构标准”中,分析了国际常用数字资源唯一标识方案的优缺点,在此基础上对数字资源长期保存系统中资源标识方案的选择提出了建议;分析了“主题”元素的子元素“分类号”和“医学主题词”的标引方法,以及子元素“临床应用”、“研究证据类型”、“科室类别”的分类方法。
5.2创新点
研究的创新点主要包括以下几个方面:
(1)综合分析数字资源长期保存技术研究相关文献,研究完成了一个由数字资源长期保存管理技术、数据校验技术、数据管理技术、存储管理技术、访问技术5个部分组成的数字资源长期保存技术应用框架。
(2)在保存元数据结构方面,通过研究分析数字资源长期保存元数据必须记录的信息内容,提出了一个由技术元数据、保存元数据、描述元数据、管理元数据构成的4层保存元数据框架。
(3)在保存元数据方案元素集方面,比较、分析了国内外主要数字资源长期保存元数据方案的优劣,消化、吸收、综合国内外多个保存元数据方案的研究成果,提出了医学图书馆保存元数据方案中的技术元数据、保存元数据元素集。
(4)在描述元数据研究方面,比较分析国内外主要医学专业数据库元数据方案,参考我国数字图书馆项目组制定的元数据标准规范设计指南,提出了一个由核心元数据、资源特色核心元数据、医学特色元数据构成的医学图书馆数字资源描述元数据元素集,为实现期刊论文、会议论文、学位论文几种资源的跨库检索提供了思路。
(5)在医学特色元数据元素集中,通过为“主题”元素设置子元素“医学主题词”、“临床应用”、“研究证据类型”、“科室类别”、“疾病”、“药物”,使元数据方案能够支持对医学主题词检索、循证医学资源检索、疾病和药物信息检索、临床科室导航功能的开发。
5.3论文的不足
由于本人能力水平、时间、实践经验等条件的限制,论文在以下几个方面存在不足:
(1)在元数据方案的语义结构标准方面,由于时间的限制,未能深入研究讨论国家现有药品和疾病名称标准在“疾病名称”、“药物名称”元素标引中的具体应用方案。
(2)未能完全建立保存元数据方案的试验平台,元数据方案的实用性和可操作性有待实际应用检验。
(3)本文所探讨的保存元数据方案中仅涉及了期刊论文、会议论文、学位论文3种资源,还有图书、音频、视频、网页、科技报告等多种资源尚待进一步研究探讨。
5.4需要进一步研究的问题
数字资源长期保存是一项十分复杂的活动,论文中仅探讨了数字资源长期研究中的一部分内容。还需要从以下几个方面开展医学图书馆数字资源长期保存的研究工作:
(1)需要建立医学数字资源长期保存的战略规划;
(2)如果各数字资源长期保存项目都采取自行发展的策略,就会出现资源重复建设、机构负担较重等情况,需要研究联合各方面力量建立医学图书馆数字资源长期保存的整体责任体系和合作机制;
(3)需要深入研讨建立数字资源长期保存长期稳定的人员、物质和经费投入机制;
(4)需要研究制定系统化、整建制、跨行业的数字资源长期保存标准规范和数字资源长期保存工作流程。例如:数据的存储流程和存储规范、数据备份流程和备份规范等,以利于实现整个组织集中、统一的数据存储管理。
(5)需要尽快进行数字资源长期保存实践,继续探讨数字资源长期保存所涉及的其它问题。