本文是一篇语言学论文,笔者认为集合是本文整合识别规则的基础,为了让易于准确识别的集合能以较高的优先级应用于规则中,本文将其排在比较靠前的位置,规则中集合的优先级依次为:句法位置集、固定句式集、邻接字符集、搭配词集、共现字符集。规则的起点是将“就是”和“就是说”两种情况分开讨论,这两条规则流程的终点分别是判断为短语和话语标记。
第一章绪论
1.1选题依据
1.“就是”本体研究的复杂性
“就是”在现代汉语中是一个复杂的词语,根据不同的上下文语境,“就是”可以用作短语、副词、连词、助词以及话语标记。“就是”在《现代汉语常用词表》(草案)中的频序号为133(共收录常用词语56008个,按词频从高到低排列),据统计,“就是”在北京大学中国语言学研究中心现代汉语语料库(CCL现代汉语语料库)中共出现255,948次,在中国传媒大学有声媒体文本语料库(MLC语料库)中共出现333,763次。可见,“就是”在现代汉语中使用上占有绝对优势,因为其语义的确定较为复杂,用法灵活多变,且前人对“就是”的属性归类问题看法不一,所以对“就是”的属性进行深入研究具有重要的意义。
语言学论文参考
2.“就是”属性识别情况不理想
自动分词和词性标注是中文信息处理的基础和关键,兼类词的识别对汉语的词性标注来说一直是一大难题,从“就是”来看,通过对现行分词标注系统的测试发现,其属性识别情况并不理想,词性标注的准确率还有待提高。
本文使用现行词典和前人文献中的例句,对传媒语言语料库在线分词标注系统、NLPIR-ICTCLAS汉语分词系统、搜狗云分词系统、语料库在线分词系统、语言技术平台、清华大学THULAC中文词法分析工具这6个现行分词标注系统进行初步测试,得出的分词标注结果并不理想。随后又对其中词性标注性能最高的平台——语言技术平台(Language Technology Platform,LTP)进行测试后发现,在500条测试语料中能够正确识别的数量为135条,存在短语和副词交叉识别、连词只能标注正确一小部分、助词识别不出和词性标注未覆盖话语标记等问题。
..................................
1.2研究目的及意义
1.2.1研究目的
以往“就是”的研究多集中于本体方面,而从中文信息处理的角度展开的研究比较少。本文拟结合语言学理论和计算机处理方法,以口语语料库为切入点,通过归纳“就是”各属性的形式特点,总结出针对“就是”五种属性行之有效的识别规则,尝试提高“就是”词性标注的正确率,在一定程度上为机器自动识别提供帮助。
1.2.2研究意义
“就是”在现代汉语中属于较常见的词,使用频率也很高,但现行的词性标注系统对“就是”的词性标注情况并不理想,连词、助词、话语标记基本识别不出,短语和副词标注错误的现象很普遍。如分词标注效果较好的语言技术平台能识别出短语、副词和极少的连词,但前两者的识别还存在很多错误。本文对兼类词“就是”的用法进行基于规则的自动识别研究,不断提高兼类词“就是”五种属性自动识别的准确率,希望能为推动现代汉语其他兼类词的自动识别研究提供一些参考。
在自然语言处理的初级阶段,话语标记的自动识别与分词标注、句法分析有着密切的关系,机器在进行句法分析时,游离于句法层面之外的话语标记会大大降低机器识别的准确率。本文对“就是”的属性识别研究包括对话语标记“就是”的识别,正确地识别话语标记可以扫清句法分析的障碍,提高句法分析的精确度。
...........................
第二章“就是”各属性的定义和分类
2.1动词短语“就是”
在现代汉语中,短语“就是”由副词“就”+动词“是”构成,“就是”是一个偏正式的动词短语。副词“就”表示加强肯定、确定范围、承接上文等,在多数情况下表示强调,在句中作状语,动词“是”表示肯定性判断,在句中作谓语。短语“就是”的主要功能是加强判断。
1.语义特征
动词“是”主要起肯定和联系的作用,可以联系两种事物,表示二者具有某种关系。从语义上看,“就是”主要表示的是判断关系,具体表示为等同、归类、存在、说明等关系。如下例:
(1)最好的人不只妈妈一个,另外还有一个人陪我度过了15年,他【就是】我的父亲,父亲是一个脾气火爆的人。(北京电视台\7日7频道2008-01-30)
(2)在大陆有名的连续剧《潜伏》,那个男主角他【就是】军统局的。大家可以看到,里面跟中统局会有内斗。(中央电视台\海峡两岸\2010-03-16)
(3)中央电视台驻台记者毕辉:还会记住非常好客的山东人,因为我【就是】山东人。(中央电视台\海峡两岸\2010-05-20)
(4)在国展2号馆的一楼,您瞧很多厂商都带来了最新的产品,在我旁边【就是】一个游艇的展示区,开着游艇出海感觉一定很爽吧。(天津电视台\财经视界\2009-09-22)
(5)曾经就读的凤山县高中当起了英语老师,她说当初上大学选择学英语【就是】看到自己家乡太缺少英语老师,她想让更多的孩子有机会走出大山。(中央电视台\中国新闻\2010-10-05)
以上例句中,“就是”都表示判断关系,例(1)表示等同关系,“就是”前后的两部分所指相同,可以互换,意思不变,即“我的父亲就是他”;例(2)和(3)表示归类关系,前后部分不能随意替换,但例(3)宾语前可加数量短语或后加“之一”等词,这样主语和宾语之间就变成了等同关系,即“我就是山东人之一”;例(4)表示存在关系,主语一般为方位名词,“是”可以用“有”来替换;例(5)表示说明关系,说明某件事情的原因或某个事物的条件,基本结构为“结果+就是+原因”。
................................
2.2副词“就是”
副词“就是”一般作状语,从目前词典对副词“就是”的释义来看,按照语义特点和用法的不同,可以概括为以下三种用法:
1.等同于“对”;常单用,表示同意
(29)梁文道:对,而官员呢我们就不敢检察,也不敢碰。窦文涛:【就是】,我就说。梁文道:对不对?(凤凰卫视\锵锵三人行\2010-05-20)
(30)记者:我看进来那个车是您的。徐忠坤:就是【就是】。记者:现在为什么不跑了呢?徐忠坤:没有活干。(中央电视台\新闻1+1\2009-01-19)
以上所列例句中,“就是”是副词,表示同意,多用在应答句中,例(29)中的“就是”单独使用,表示窦文涛对上文梁文道表达观点的认可和同意,与梁文道所说的“对”相对;例(30)中的“就是就是”是在单独使用的基础上重叠出现,是一种应答性的承诺和认可。
2.语气副词,表示强调肯定
(31)王小姐挺着大肚子在06年底来到深圳,但吴先生【就是】不见她。王小姐的肚子越来越大,无法做手术了。(深圳电视台\第一现场\2009-02-16)
(32)这件事发生在北京,说明一个问题,说明北京不愧是首都,执法意识,包括知法懂法,水平【就是】高,人家横在马路中间那么多年了,就是没人动。(中央电视台\新闻1+1\2010-06-30)
以上所列例句中,“就是”是表强调的副词,例(31)中“就是”用在动词短语前,一般动词前都会有“不”“没有”等否定副词出现,“就是”强调吴先生不见王小姐的坚决态度。例(32)中“就是”用在形容词前,意在强调北京执法意识非常高。
..............................
第三章“就是”的句法位置分析...................................28
3.1句法位置整体对比分析..........................................28
3.2各属性的句法位置分析...........................................29
第四章“就是”的固定搭配分析.............................44
4.1短语“就是”的固定搭配..............................44
4.2副词“就是”的固定搭配...............................57
第五章“就是”的邻接字符和共现字符分析...............................64
5.1“就是”的邻接字符分析...........................64
5.1.1短语“就是”的邻接字符...............................64
5.1.2副词“就是”的邻接字符..................................73
第六章识别规则及验证
6.1建立规则集
6.1.1相关概念
为方便规则称述和编写程序,本文在借鉴相关研究论文的基础上自行定义了一些相关概念。在具体识别规则中采用“#”进行注释,“#”后的内容为对该语句的中文注释。示例如下:
D1JF1#短语“就是”句法位置集1#
F1JS1#副词“就是”固定句式集1#
H2JF1#话语标记“就是说”句法位置集1#
D2HLJ1#短语“就是说”后邻接字符集1#
语言学论文怎么写
............................
第七章结论
本文从中文信息处理角度出发,在自建语料库的基础上,对“就是”五种属性的形式标记进行提取和整理,最终归纳出一套准确率较高的词性标注规则,为兼类词的分词和词性标注提供了依据。
首先,在人工判别“就是”的五种属性时,短语主要依据的是不能省略、语义关系和4种语法特征;副词主要依据的是3种语义类型及各自对应的用法;连词主要依据的是3种语义关系,并辅之典型的固定搭配;助词主要依据的是1种语义类型,并辅之句法位置和固定搭配;话语标记主要依据的是3种语用功能和6种变式形式。
其次,经过对五种属性出现在四种句法位置上的语料进行量化分析,筛选掉属性间的相同点,最终归纳出“就是”的4个句法位置集和“就是说”的1个句法位置集,将其分别排列在一级规则。
再次,在提取和分析语料的搭配关系、邻接情况和共现情况中的形式化标记后,总结出各个属性的特有规则,归纳得到“就是”的4个固定句式集、8个邻接字符集、8个搭配词集、2个共现字符集,以及“就是说”的1个固定句式集、3个邻接字符集、1个搭配词集、1个共现字符集,将以上集合排列在句法位置集之后。
集合是本文整合识别规则的基础,为了让易于准确识别的集合能以较高的优先级应用于规则中,本文将其排在比较靠前的位置,规则中集合的优先级依次为:句法位置集、固定句式集、邻接字符集、搭配词集、共现字符集。规则的起点是将“就是”和“就是说”两种情况分开讨论,这两条规则流程的终点分别是判断为短语和话语标记。
参考文献(略)