面向汉语辞书编纂的大型通用语料库构建研究

论文价格：0元/篇论文用途：仅供参考编辑：论文网点击次数：0

论文字数：**** 论文编号：lw202322295 日期：2023-07-20 来源：论文网

Tag：面向,汉语,辞书,编纂,的,

第1 章绪论

1.1 语料库建设的研究现状
1.1.1 国内语料库建设的研究现状
我国语料库的发展呈现多样化的趋势，尤其是近十年的时间里，不同类型的语料库迅猛发展起来，这其中包括了通用型语料库和专用型语料库、文本型的语料库和语音语料库、现代汉语语料库和古代汉语语料库、书面语语料库和口语语料库、共时型语料库和历时型语料库、中介语语料库。
在近十年的语料库发展中，通用型语料库和专用型语料库的发展是其主要内容。通用型语料库中影响最大、使用范围最广的有国家语委的现代汉语语料库、北大的现代汉语语料库以及北大的现代汉语标注语料库，中港台汉语语料库也在两岸三地有着重要的影响作用。1996年刘连元在《现代汉语语料库研制》中，对现代汉语语料库的建设做了详细的介绍。2004年靳光瑾、肖航、富丽、章云帆在《现代汉语语料库建设及深加工》中，也对国家语委建设的现代汉语语料库建设做了一些介绍，并且偏重从深加工的角度进行分析说明。国家语委的现代汉语语料库2001年年初建成的国家级大型的平衡语料库，语料跨度近一百年，总库容量有1 亿字。语料内容包括了人文社会科学、自然科学和综合三个大范围，这之下又分出四十个小类，涉及到行政、礼仪、文书等许多实用领域。2002年俞士汶、段慧明、朱学锋、孙斌在《北京大学现代汉语语料库基本加工规范》中对北大的现代汉语语料库的建设情况做了一定程度的说明。该库在2009年下半年总体库容量达到超过7亿的字节。它主要是从口语和书面语角度划分，书面语中还包括了史传、应用文、报刊、电影、戏剧等内容。该语料库还实现了网上的免费共享，它的检索途径还方便了使用者对于语料来源相关信息的掌握。文中所描述的语料库规模是一个有2700万汉字的现代汉语语料库，在对其进行基本加工的过程中形成了一定的规范，论文对语料库的加工项目进行了细致的介绍：词语切分和词性标注、专有名词(人名、地名、团体机构名称等)标注、语素子类标注以及动词和形容词的特殊用法标注等。2000年段慧明、俞士汶等人的《大规模汉语标注语料库研制与使用》中，从语言资源、汉语标注语料制作的必要性、大规模汉语标注语料库的制作、基于标注语料库的汉语切分系统、试验、提高精度、标注语料库的应用七个方面对语料库的建设和使用情况做了精简的说明。

1.2 研究意义和价值
1.2.1 填补汉语辞书理论的空白
从我国已有的辞书理论来看，现有的一些关于辞书理论建设方面的研究已经有了很大的进步，但从微观的角度来看，这些理论大部分都是以介绍国外的先进理论为主，有些研究更是以“模仿”、“跟踪”的性质来进行研究；而在这些理论引进后，我们并无法很好的将其与我国辞书的实际发展情况进行结合、消化、创新，提出自己的原创性研究，建立一套适合我国辞书编纂的现代化的原创理论。用理念来演绎当代的辞书发展，从某种程度上来说，一套有系统的理论或理念支持将会对辞书发展起到至关重要的作用。我们当今世界的发展已经进入信息时代，语言必将作为一种十分重要的资源影响我们生活的方方面面。为了进一步提高我国文化软实力的发展，我们不断加大开发利用语言资源的力度。但汉语辞书编纂不能再只遵循传统的辞书理论的条条框框，还更多地要引入新的现代化辞书理念，让辞书编纂成为语言资源开发利用的一个重要途径。一个大型通用的辞书编纂语料库建立，可以让汉语辞书编纂从中进一步吸收、借鉴国外先进的辞书编纂理念以及各种语言学理论。而在这个语料库的建设过程中，我们不仅可以更好地认识这些理论，而且还可以将这些理论成功的运用到实践中去，用它来检验是否与我国辞书建设的实际国情相一致。从一定意义上说，本研究弥补传统辞书理论的不足，为辞书编纂提供了新的理论支撑，努力实现辞书编纂的现代化。由此，面向汉语辞书编纂的大型通用语料库的建立可以推进汉语辞书理论建设，填补了汉语辞书理论的空白，不断开拓汉语辞书编纂的新领域。
1.2.2 推进中文信息处理发展
中文信息处理主要就是说用计算机技术来对汉语的字形、字音、字义等这些信息来进行处理。换句话来说，就是让计算机来认识汉语，进而更好的记录汉语的发展。中文信息处理的方法主要有两种：基于统计的方法和基于理解的方法。我们尝试在语料库统计的基础上来让计算机不断的加深对汉语的理解，最后过渡到基于理解的方法，使计算机的信息处理手段也从经验主义的方法逐步转入到理性主义的方法中去。通过对语料库的标注信息和标注方法不断深入研究，来更好的认识汉语、理解汉语。在计算机技术高速发展的今天，为了更好的运用计算机技术来理解、处理和生成自然语言的能力，首先要做的就是必须要让计算机能够正确认识和分析自然语言。这也就推动了中文信息处理的发展。一个汉语语料库建设，即让计算机辅助词典编纂是中文信息处理的一项重要内容。在一个语料库的建设过程中，从开始的语料搜集到最后的语料信息标注处理都是有一定标准的，语料的采集样本是标准的，语料库的框架结构、编码要求和处理工具也是有统一标准的。从汉字信息的输入到输出、汉字信息的检索和提取、再到汉字信息的转换，在中文信息处理过程中，这些都是一个语料库所带来的影响。大型通用语料库的成功建立，必将会使得中文信息完全按照统一的标准来进行解码、分析，计算机就会更加科学、全面、客观的认识自然语言，这对中文信息的发展也是起到很到的推动作用。通过运用统一标准来进行各类信息的标注，规范计算机语言的使用，我们可以更好地推进中文信息处理的发展。

第2 章面向汉语辞书编纂的大型通用语料库的设计理念

语料库的设计理念对语料库的建设起到纲领性的指导作用。语料库正是有了科学合理的设计理念，才能使语料库更好地为使用者服务。语料库诞生的大背景先从宏观方面对语料库的最初产生原因加以说明，接着从微观方面阐述几个较为典型的大型语料库的设计理念，最后借鉴先进并结合我国实际，提出面向汉语辞书编纂的大型通用语料库的设计理念。

2.1 语料库诞生的大背景
语料库就是一些文本的集合，但不同的语料库又是设计者根据不同的需求来收集不同语言特征的语料。一些早期的语料库为了收到常用词、高频词聚集的效果，所选用的语料主要来自于各种来源和各种领域的私人或是公开出版的信件，这些信件在当时最大程度地反映了高频词和常用词的使用情况。当然还有一些早期的语料库是从为语言频率研究设计发展而来的，遵从语言发展的规律，由语音慢慢向词汇和语法的方向发展和进步。在辞典编纂领域产生过重大影响的早期电子语料库主要是为外国学习者进行英语教学而设计的。再按照学习对象的并不同，这一领域内的教学还可以细分为 ESL 教学和 EFL 教学。ESL 教学主要是针对那些母语非英语，但是生活在英语地区的英语学习者；而EFL教学主要面向的是母语非英语，同时也生活在非英语国家的英语学习者。在ESL领域，Michael West、Harold E.Palmer 和 A.S.Hornby 在二十世纪三十年代所进行语料库研究中，就对此具有开创性的影响，一直到今天还深深地影响着词典编纂者的研究活动。最早的EFL 词典是出现于日本的。也是在二十世纪三十年代，Hornby 的研究就是当时东京英语教学研究所的核心任务，他们所进行的“词汇控制/vocabulary control”研究对学习词典产生了深刻而又持久的影响。后来又在ESL 领域专家们的共同努力下，于1936年正式发表了《The Interim Report on Vocabulary Selection》,这是一部有重大学术影响的语言学著作，比起早期的Thorndike等人的词汇研究，它要更复杂、更深刻。它将语法功能和语义研究统统纳入研究的范围之内，例如对比同一个词语在不同词性下的语义使用情况等等，在这种类似的语义研究的推动下又带来了语义频率统计的研究，把这一思想引入到前面的报告中，就扩充为了《A General Service List of English Words》，这个词汇表不仅按照语义对义项做了划分，而且还标明了每个词义的相对使用频率。虽然的收词量有限，对词典编纂的影响有限，但是作为一种方向性指导性的研究模式，对词典语料库改进发展方面却产生着不可估量的作用。关于语法方面的研究，还有一本原创性的著作不得不提，那就是 Charles C. Fries 的《The Structure of English：an Introduction to the Construction of English Sentences》。他有了前几年关于一些书信原文的语法研究成果，这本著作才得以顺利成形。这本著作是利用电话录音和交谈录音等的分析结果来讲述英语语法的。Fries 用他的研究表明，英语书面语常用词在4000到 5000个之间，占整个书面语用词的 95%；最常用的大约有 1000 个左右，占到整个书面语用词的85%。这已经可以说明常用词对语言研究和教科书、词典编纂等方面具有重要的存在意义。他还发现在所有的书面语用词中，高频功能词有50个，所占比例约为 60%；在 1000 个最常用词中，其中名词又占到 40%。这些重要的研究成果对辞书编纂和教材编写都产生着重要的指导作用，让研究者把编写重点从不常用词转到常用词和高频语词的方向上来。

2.2 代表性语料库的设计理念
FrameNet 是由美国伯克利大学的 Fillmore 主持开发的词库项目。它是建立在格语法和框架语义学理论的基础之上。同时它也有一个假设前提，就是语言单位的语言结构可以显示语义框架的某些内容，正是因为这一点，语词的意义和功能就被正确的解释出来，而语词底层的语义框架和某些特征描写就作为一个桥梁，将语言单位的结构和语词的意义功能连接了起来。词典学家和相关的语言学家根据语义框架，在大规模的文本语料中抽取例句，通过对这些模式的系统分析，从而进一步描述这些语词的语义框架并以机读的形式对其框架的相关知识点进行编码，最后由编程人员实现其在计算机中运用。
国外大型的语料在建设之初注重语料之间的平衡设计，语料的分类标准和各种类型所占比例都做过相关的平衡结构计划。语料库要想达到平衡性的设计理念，就必须要合理安排各种类型的语料在语料库中所占有的比例。同时还要注意，各种类型的语料所占有的比例要符合它在实际生活中所产生的影响比重。为了是语料库达到平衡性的要求，就首先要确立语料的平衡因子，也就是影响语料分类的各种因素。比如说语体、年代、使用者的年龄和性别、语料的用途等等。根据我们的相关调查也发现，国外许多语料库确实在这方面考虑的很周全，一般在语言资源来源、学科分布、文体类型和时间观念上都有一定的平衡设计，兼顾考虑多种平衡因子。国外的大型语料库在将语料的比例确定后，还考虑语料的内容选择标准，在充分考虑后他们一般选择选择发行量较大、发型范围较广、在读者中畅销的、与时代生活密切相关的等方面的语料。
John Sinclair 主持的 COBUILD 语料库有一大特点就是，为了满足普通共时词典编纂的需要，将该语料库和其他大型的语料库组合在一起，并称之为“监控语料库/monitor corpus”，它们以开放式的形式来监控一段时期内语言的变化。这样一来，就为语料库加进了一个动态的元素。我们则是通过软件分析，识别和发现新词、发现词汇的新用法，将新文本按一定的方式源源不断地加入语料库中去。Sinclair 为了证明监控语料库的优势和科学性，他还把这种类型的语料库与“样本语料库/sample corpus”做了一系列的对比。样本语料库的假设是，如果语料库的规模足够大，搜集的语料足够广泛、足够多，那么它的样本的规模就不需要很大。但在后来词典编纂的过程中发现，事实并不是这样的。样本过少就势必会导致某些词汇和短语出现的频率过低，也就无法给词典编纂者提供足够的例证支持。这一对比从另一个角度证实了监控语料库较之以往有不可比拟的优势。

第3章面向汉语辞书编纂的大型通用语料库的语料采集 ....................... 18
3.1 代表性语料库的语料采集 ...................... 18
3.1.1 COBUILD语料库的语料采集.......................... 18
第4章面向汉语辞书编纂的大型通用语料库的语料加工处理 .................. 31
4.1 原始语料的存储格式 ............... 31
4.2 语料的深加工 ....................... 31
第5章面向汉语辞书编纂的大型通用语料库的功能 .......................... 41
5.1 管理功能 ..................................... 41

第5 章面向汉语辞书编纂的大型通用语料库的功能

5.1 管理功能
面向汉语辞书编纂的大型通用语料库的管理功能主要是指，运用语料库手段对语料库中的语篇文本资料、声音、标记符号、例证、图文信息等方面进行系统的管理。这样系统地将所有信息全部录入语料库中，不仅可以大大提高资源的利用程度，同时也可以便于访问者使用。就语篇、图文信息、例证等涉及辞书主体内容的方面，文本文件要有入库、导入、导出、转换、浏览、查询等功能；同时还应具备语料的编辑、剪切、增删等功能；最后在存储阶段要有存盘、拷贝、更新、检测等功能。较之以往的传统词典编纂方法，语料库的方法不仅大大提高了效率，还使信息录入更加全面，进而管理也就更加方便。面向汉语辞书编纂的大型通用语料库无论是从规模上，还是通用性上考虑，语料库信息的科学管理对辞书的生成都有着至关重要的作用。

第6 章结论
在论文的写作过程中，本人深刻体会到自己语言知识的匮乏和相关领域知识的欠缺，语料库的建设还不是十分令人满意。由于个人学术水平有限，研究能力和研究手段等方面还有很多不足，在语料库的建设方面还存在一定的局限性。本文有待完善、改进之处甚多，尤其是在语料的深加工方面还应从更多个角度对语料加以分析和处理，使语料的更多信息得以在语料库中体现；并且有些标准只是笼统地谈了一下，还有很多规则没有具体细化和深入研究。等等这些内容还需要在以后的研究中得到进一步完善。
参考文献（略）

上一篇：英汉不礼貌策略对比研究——以《生活大爆炸》和《爱情公寓》为例
下一篇：从多元系统理论角度看《彷徨》的三个英译本

如果您有论文相关需求，可以通过下面的方式联系我们

客服微信：371975100

相关语言学论文文章