导言
当前国内语言学界对核心词的研究兴趣正在日益表现出来,其中最值得注意的是南京师范大学李葆嘉先生的研究。李葆嘉(2002)从宏观的角度描绘了汉语元语言系统,指出语言学的元语言包含三层含义:用于语言交际的最低限量的日常词汇,用于辞书编纂和语言教学的释义元语言,用于语义特征分析的语义元语言。不同类型的研究所得出的元语言单位是不同的。其中观层级"用于语言交际的最低限量的日常词汇"?基本相当于我们所探讨的核心词,粗略勾勒了词汇元语言系统的构建。我们的研究从宏观入手,通过对比分析法在三个平衡语料库中提取现代汉语常用词,根据规范性和通用性原则删选其中的核心词。在此基础上从微观上删选,分词类在最小语义场内的排査使核心词的优化变得有据可循,最大限度的保证了面向第二语言教学的核心词表的科学性和客观性。义类框架的建立也使核心词的语义分布变得一目了然,使核心词的研究更加深入到微观层面。
第一章关于核心词的界定
第一节核心词概念的提出
核心词(core vocabulary)是一个西方语言学界提出的概念。虽然众多的语言学家和语言教学者认为核心词的概念是合情合理而无可争议的。然而事实上,不同的研究者从不同的角度出发对核心词的理解不尽相同,概括地说主要有以下七种
1. 核心词是整个语言系统中最为常用的词。
由于书面语中的词总是更容易去统计和研究,这个定义在很长的一段时间实际上被默认为是"书面语中最常用的词"。例如韦斯特(M. West) 1953年的《英语常用词表》是在对包含500万词的英语书面语材料的统计的基础上得出的。此处的核心词意味着一个带有临界点的最常用词的原始统计,例如词表中前850个,前1000个,前2000个或前3500个词语。
2. 核心词是在任何领域和风格中都有着最为广泛用法的词语。
Carroll, Davies和Richman (1971)认为,用统计学的术语来说,核心词在各类文本中具有很广泛的分布率。"核心"从这个意义上由语言的统计背景来决定,这些词语在最广泛的语域中被频繁地使用。②这个定义是对词的"有用性"或"价值"的一种衡量方式。从计算语言学的角度看,这些词能在极其广泛的语体和语境中不受限制地使用。是"任何时候"而不是"某些时候,某些特定的场景和目的下才能使用"的词语。
3. 核心词是某一特定语体中最为常用的词。
持这种观点的学者认为,口语和书面语中的核心词表是不相同的。不分口语和书面语提取自整个语言的词表并不具备现实意义和价值。核心词在口语和书面语中有其各自不同的表现,应该恰当地标注典型的口语词和书面语词。1995年版的《朗文当代英语词典》明确地标注出口语和书面语中词语的不同使用情况,分别标注了 口语和书面语中最为常用的3000高频词,这在以往的学习型词典中是前所未有的。有些词条分别标注了在口语和书面语中的使用频率。此外,一些只用在口语里而不用在书面语中的词语在词条的旁边用"口"加以标注。
第二节本文的基本看法
本文对核心词的界定是从第二语言习得的角度出发的。《牛津英语词典》的导言指出,英语的词汇量不是"有明确的界限限定的固定数量",而是"一个有着清楚确定的核心的雾状块,这个雾状块向各个方向如影子一般散开,直到一个似乎没有止尽的边缘"。从语体的角度来说,书语词、文言词、口语词、俗语词不属于词汇的核心;从来源的角度来说,外来词、方言词也不在核心词的范围之内;从语域的角度来看,科学术语和技术术语等专门词语也不在核心词的范围之内。我们可以套用索绪尔关于语言和言语的划分来理解这一概念,现代汉语词汇系统有两个层面,内层是语言词,外层是言语词。核心词是语言词的基干部分,居于中心的位置。与其接壤并有着较强互渗力的是口语词、方言词、外来词、书语词、专门术语和行业词。这几种词构筑在中心部分核心词的四周,中心部分与四边部分不是泾渭分明的,而是有着一个广阔、重合的地带。这一层面的词语是语言性质的,有着静态、稳定的特性,愈是靠中间的部分,这一性质愈是突出。人名、地名、机构名、数字词则构成了言语词层面,它们漂浮在语言层的外围。之所以说它们是漂'- 浮的,就是因为稳定性不够,而且大部分活跃在特定环境,没有进入整个社会的通用范围。核心词和非核心词之间并没有明显的边界,两者之间存在中间状态,整个词汇系统是由核心词向非核心词的逐渐过渡。因此,核心词有典型范畴和边缘范畴之分,说一个词更接近词汇的核心层面,或用程度来描绘核心词更为准确。
二、面向第二语言教学的核心词与释义元语言
在近十年的词汇研究中,释义元语言的研究是汉语核心词研究领域的一个热点。释义元语言是用来解释词典所收词语的定义语言,在数量上是有限的。相关词表的提取是面向第二语言教学的核心词与释义元语言研究最基础的工作。从使用的语料来看,释义元语言提取的是词典中除去例句部分的释义语言,词典大都选用具有权威地位的《现代汉语词典》;而面向第二语言的核心词提取的是自然语言。从词典典范晓畅的要求来看,释义元语言讲究选词的规范性、在风格上追求浅近的书面语风格,避免口语色彩的词语;而第二语言教学的核心词追求的是词语的通用性和易学性,不包含具有古雅书面语色彩的词语。从语义构成来看,释义元语言讲求的是面面俱到,不能畸轻畸重。第5版《现汉》共收录科技条目1.05万多条,约占全书6. 5万余条的16. 15%?。因此,释义元语言除了专用释义术语外,还包括相当数量的百科术语。例如,在苏新春提取的4000条汉语释义元语言中,约有70条专用释义术语和500条百科术语。而基础阶段第二语言教学的特点决定了第二语言教学的核心词以日常生活为中心,注重词语的生活性,侧重衣食住行类词语,百科术语只占很小的比重。
第二章核心词的判定标准和筛选方法
第一节核心词的判定标准
一、 常用性
常用性是衡量核心词最基本的标准,其他两个标准都是在常用性标准的基础上而言的,是对常用性的进一步补充和限定。离开了常用性,核心词的科学性与实用性将无从谈起。衡量词语常用与否的客观尺度是词语在语言中的使用频率。频次(频数)一般指词在一定时间、一定范围内出现的次数;频率指在一定时间、一定范围内,词汇出现的次数与考察范围总次数之比。一个词在文本中出现的次数多,则频率高;出现的次数少,则频率低。词频显示出一个词的社会使用密度、人们的熟知程度,是词语常用性的重要标志。但是,常用性是现代汉语核心词的必要条件,但并非充分条件,频率标准是有局限的。因为频率指数的可靠性是相对的。假定在10篇词汇量大致相等的语言材料中,有八、B两个词,词A的出现频率略高于词B,但词A只在一篇语言材料中出现,而词B在10篇语言材料中均有出现,显然词B比词A更为有用,尽管词B的出现频率比词A的低一些,但是它在语言材料中的分布比词A广泛得多。可见,频率有时会掩盖语言事实的真相。
二、 均衡性
均衡性标准是对常用性标准的补充说明。核心词一定是语言中的高频词,但它们同时必须在最广泛的语料中有均衡的分布。不同类别、语体与题材的比例都会影响到语言材料的统计结果,从而使得我们不能只以频率作为判定同语是否常用的唯一标准。词汇统计中的分布率指词汇出现的文本数与统计的文本总数的比率。正如法国学者繆勒(CMuller)所言:"频率概念如果不立即与分布概念相结合,那么,频率概念的价值是不高的。
三、 稳定性
稳定性是对常用性标准的进一步限定,是均衡性在时间分布上的体现,因此,核心词不包含来去匆匆的社会热点词语。核心词是语言中的内核,从时间上看无疑是稳定的。稳定性是一个相对的概念,语言所描写的社会是发展的,核心词不可能恒定不变,稳定性并不是固定性。核心词的稳定性是就其整体而言的,并不是一成不变不增不减的。核心词的主体部分是稳定的,但并不排除局部的"新陈代谢"。均衡性和稳定性标准要求核心词的提取必须选择有代表性的平衡语料库,使初选入词表中的词语相对科学客观。
第二节核心词数量的测算
我们首先考察现代汉语词汇的分布规律,从理论上推算论证现代汉语核心词的数量,在此基础上充分考虑初级阶段第二语言习得的规律,并辅以第二语言教学的经验论证面向第二语言教学的核心词数量。
一、通用核心词的数量
先分别来看一个小规模语料库和海量语料库词语的分布情况。《现代汉语频率词典》(1985)选用了各种题材和体裁的语言作品共四类,180万字。统计显示,175条词可以覆盖180万字语料的49%; 1230条词可以覆盖76%; 3000词可覆盖86%; 5000条词可覆盖91%; 8000条词可覆盖语料的95%。《中国语言生活状况报告(2005)》的统计显示,只用627条词,就可以覆盖9亿字语料的50%; 4000余词可以覆盖80%; 1.1万词条可以覆盖90%。统计的覆盖率会随着语料数量的增加而略微下滑,是因为海量语料中大量的非常用词部分地淹没了统计结果。但词语覆盖率的分布结果依然突显出高频词集中的特点。苏新春(2007)对现代汉语通用语料库分布情况的统计显示,人名、地名、机构名、数字词这四类典型的专名共48066条,占所有词语的31.7%,人名、地名、机构名是典型的言语词,十以上的数字词可以简单类推,不妨看做数字短语,都不在我们的研究范围之列。如果排除将近三成的这类词语,语文性词语的覆盖率显然还要高于上面的统计结果。《朗文当代英语词典》的研制者指出,3000常用词以外的词语如何选择没有严格的客观性。比如词频在4000—8000的词段时,即使对一个汉语是母语的人来说都很难辨别出哪个词比哪个词重要。在这个阶段,任何频率上的差别与其说是相对词频在汉语中的真实反映,不如说是列入语料库中的单篇文本的体现。在任何语料库中后半段的词表里,一个词与相邻词语在频率上的差别会完全消失。这是因为不管多大的语料库,这个点以下的词语都只出现一次。
二、面向第二语言教学的核心词数量
面向第二语言教学的核心词的服务对象主要是汉语初学者,在考察通用核心词数量的基础上,我们还应该充分考虑初级阶段汉语学习的具体任务。初级阶段的第二语言教学主要着重基本语言技能的培养,侧重日常生活交际能力的训练,在内容上围绕"衣食住行"和娱乐展开。我们看到,五十课的话题全部围绕日常生活展开,语言使用的环境主要局限在个人生活领域,较少涉及经济、政治、法律和科技等公共社会性内容。与整个现代汉语词汇的分布规律相比,生活口语语料高频词的覆盖面更广。《现代汉语频率词典》生活口语类语料选用反映日常生活各个层面的剧本名作、相声、评书,此外还有专题采录和随机采录的部分口语语料(整理成书面形式),共201892字。统计显示,前100词的累计频率就高达52. 5891%,前1000词的累计频率达到84. 7863%,前2000词的累计频率达到91. 6520%,前3000词的累计频率达到94. 8356%。使用频率最高的前2000词的覆盖率己经达到相当高的程度。根据王慧(2011)对新加坡国立大学"华语口语对话语料库"随机选取出204段录音材料的统计,2550个词在83万字口语语料库中的文本覆盖率达到95%。这意味着,掌握2500左右的核心词就可以与汉语母语者展开话题广泛的日常对话。分析材料虽是新加坡华语,但统计结果依然值得借鉴。
在目的语国家接受正规的课堂语言教学是有严格的学时规定的,基础阶段一般为一年,有效教学时间在800学时左右。根据面向第二语言的汉语教学几十年的实践经验,在第一年的初级阶段中,第一阶段的前3-4个月词汇量接近1000;后4一5个月的第二阶段词汇量接近1500。邱军、李宁(1999)查阅了多种初级汉语教材,征求了一些有二十年以上对外汉语教学经验的老教师的意见,得出的初步结论是:初级阶段3000词汇量的标准略高,只有少数亚洲学生可以达到,2600到2800是相对合适的量。杨寄洲(2003)在谈到编写初级阶段汉语教材 -需要注意的问题时指出,从理论上讲,对外汉语初级阶段的教学是一种短期速成性质的教学,将词汇量控制在2500个比较适宜。③由此可以推断,面向第二语言教学的汉语核心词数量应该少于3000个,大约在2500到2800之间。
第二章核心词的判定标准和筛选方法..........28
第一节核心词的判定标准..........28
一、常用性..........28
二、均衡性..........28
第三章现代汉语常用词的提取..........51
第一节基于语料库的常用词提取..........51
一、语料库词的初歩整理..........51
二、常用词的初歩提取..........53
第四章现代汉语通用核心词的筛选..........71
第一节现代汉语通用核心词的筛选歩骤..........71
一、筛查常用词表的非通用性成分..........71
二、常用词表的规范化..........71
第二节非通用词的筛査..........71
结论
核心词是初级阶段语言学习的重点,这并不意味的别的词语就完全不需要掌握。核心词的范围应当是柔性和相对的,而不是刚性的。一方面,任何范畴都典型成员和非典型成员之分,整个词汇系统是由核心词向非核心词的逐渐过渡。另一方面,词表研制的科学性总是相对而言的。语言符号的随机性特征决定了语料库的统计永远不可能有"标准答案",而只能是一种"大致情况"。初级阶段汉语教学的任务是规范口语,中高级阶段逐步向书面语倾斜。相应的,初级阶段和中高级阶段汉语教学词表研制所使用的语料库应该有所不同。初级阶段汉语学习的特点要就建立真正符合其特点的题材平衡的规范口语语料库,而不是一般意义的平衡语料库。从内容上看,超出汉语学习者生活视野的文本,如极具意识形态色彩、地方色彩或远离时代的都应慎收。
参考文献
[I] 曹讳.现代汉语口语词和书面语词的差异初探[J].语言教学与研究,2003,(06).
[2]崔建新,张文贤.不同语体下连词使用率的统计与分析[A].第七届国际汉语教学讨论会论文选[C].北京:北京大学出版社,2004.
[3]崔希亮,张宝林.全球汉语学习者语料库建设方案[J].语言文字应用,2011 (02).
[4]戴庆厦,苗东霞.第二语言(汉语)教学难点[J].汉语学习,2008(05).
[5]段业辉.语气副词的分布及语用功能汉语学习.1995(04).
[6]冯胜利.论汉语"词"的多维性[J].当代语言学,2001(03).
[7]冯胜利.论汉语书面正式语体的特征与教学[J].世界汉语教学,2006(04).
[8]冯志伟.中国语料库研究的历史与现状[J],2002.
[9]冯志伟.《应用语言学中的语料库》导读[A].北京:世界图书出版公司,2006.
[10]冯志伟.论语言符号的八大特性[J].暨南大学华文学院学报,2007(01).