第一章 绪论
1.1 研究背景与意义
越南是我国重要邻国,越南语是其官方语言,实现越南语文本信息的自动化处理对促进两国政府之间的交流、便利两国人民之间的往来都有着巨大推动作用。名词短语是句子的重要组成部分之一,实现文本中越南语名词短语的自动识别是越南语文本信息自动化处理的基础性工作,具有重要的现实意义与学术研究价值。
(1) 进行越南语名词短语自动识别研究对促进越南语句法分析、语义理解、机器翻译等自然语言处理任务都有着重要价值。
对于越南语句法分析而言,识别出句子中各类短语是其初始环节,提升名词短语的识别效果能够为句法分析的后续步骤提供更有力的支持。对于越南语语义理解而言,将句子中的名词短语作为一个整体提取出来能够一定程度上避免歧义现象的产生,使机器更准确地理解句子含义。对于机器翻译而言,在识别名词短语的基础上建立高质量的名词短语双语对齐语料库,可以为机器翻译系统提供高质量的语言资源,提升翻译效果。
(2) 对越南语名词短语的内部词性组合模式和边界进行基于语料库的定量统计调查能够丰富越南语名词短语的语言学研究,并为越南语名词短语识别提供借鉴。
在越南语语法书中①,
短语作为介于词和句子,或者说是大于词而又小于句子的一级句法单位②,其本身具有相对独立的意义,内部构成与边界也具有一定的规律性。基于语料库对越南语名词短语的内部构成与边界进行统计分析,能够更加清晰直观地反映出其内部构成特征和边界特征,定量地揭示越南语名词短语的内部构成规律与边界规律,从真实语料的角度丰富和发展现有的越南语语言学研究。对越南语名词短语进行识别研究能够促进相应识别技术的进步,是重要的识别技术研究成果。在深度学习时代,如何发挥语言学规律在神经网络中的作用,并将相关的语言学规律融合到深度学习模型中,或者根据语言学规律对深度学习模型进行相应改造,这是语言学家面临的重要课题。综上,进行越南语名词短语识别研究无论在语言学方面还是识别技术方面都有着重要的研究意义和探索价值。
.............................
1.2 研究对象
越南语名词短语方面,从句法功能的角度分析,越南语短语可分为名词短语、形容词短语、动词短语和关联词短语等。其中,名词短语在真实语言环境中大量存在,在句中往往充当主语和补语等重要句法角色。从内部构成层面分析,越南语名词短语的内部构成主要包括前置定语、中心词和后置定语。其中,前置定语构成相对简单,通常由数量词短语担任。而跟在中心词名词之后的后置定语则构成灵活,可以由单个词、各类型短语、甚至句子来充当。由于学界尚未对识别任务中越南语名词短语的界定形成较为统一的认知,因此需要以一定的语言学理论为基础,并结合越南语名词短语识别任务所服务的更高一级自然语言处理任务(如句法分析、机器翻译与信息检索)出发,对越南语名词短语进行限定。此部分将在第二章详细论述。
自动识别技术方面,本文的主要研究对象是如何将获取的越南语名词短语语言学特征融入到现有识别模型中(本文选取了 CRF 与 Bi-LSTM+CRF 两种主流的识别模型),以提升模型的识别效果。本文在语言学研究部分获取的越南语名词短语语言学特征与词性等语言学特征存在很大的不同,如何将这些语言学特征融入到现有识别模型中并提升模型的识别效果是本文在自动识别技术方面要解决的首要问题。
............................
第二章 越南语名词短语研究
2.1 越南语语言特点
越南语是一种孤立语,属南亚语系孟高棉语族越芒语支①。越南文字先后经历过两次变化,即由开始时的汉字,到后来结构更加复杂的喃字,再到目前的拉丁文字——国语字。越南受汉文化影响较大,越南语同汉语也具有一定的相似性,主要表现为以下四点:
(1)在文字表示上,两种语言都以字为基本书写单位,并且词与词之间并没有明显的分隔标记,因此在进行自然语言处理任务时往往要先进行分词处理。例如:
在上面这句话中,每一个越语字正下方是其所对应的汉语字,句子整体的汉语翻译为“越南语是越南的正式语言”。要对这句话进行自动处理,就必须先对其进行分词,这与汉语非常相似。
(2)在词汇表达上,越南语中保留了大量的汉越词,这些汉越词无论是发音还是结构都与汉语非常相似。如表 2.1 所示。
.............................
2.2 越南语名词短语
针对越南语中后置定语的复杂性,谭志词等人[44]根据定语同中心词相关性强弱对其进行排序。其中,越能表述中心词基本特性的成分距离中心词越近、音节越少的成分离中心词越近。谭志词等人以此为标准将越南语名词短语后置定语分为表示特性的成分、表示性状的成分、表示特征的成分、指示代词、表示关系的关联词结构、表示地点时间的成分、表示领属的成分、主谓词组与表示对象的成分,如表 2.7 所示。
由表 2.7 可以看出,越南语名词短语的后置定语中表示特性、性状、特征的成分以及指示代词同样由名词(短语)、形容词(短语)、动词(短语)以及代词来担任,而之后的五个修饰限制部分基本上都是由介词短语和主谓短语来充当。
..........................
第三章 基于规则的越南语名词短语识别 ................................ 31
3.1 越南语名词短语规则识别算法 .............................. 31
3.2 实验设计 .................................. 34
第四章 基于条件随机场模型的越南语名词短语识别 ........................................ 39
4.1 CRF 简述 ................................... 39
4.2 实验设计 ..................................... 39
第五章 基于深度学习方法的越南语名词短语识别 ................................. 47
5.1 Bi-LSTM+CRF 模型 ............................................. 47
5.1.1 Bi-LSTM 层 ......................................... 47
5.1.2 CRF 层 ..................................48
第六章 识别模型中语言学特征对比及有效性分析
6.1 语言学特征在 CRF 模型与深度学习模型中效果对比分析
本章在第四章 CRF 模型、第五章 Bi-LSTM 模型识别的基础上,对不同语言学特征融入两种统计模型的实验结果进行对比,具体如表 6.1 所示。其中,由 5.4 与 5.6 可知,BS Vector 2 对本文所用深度学习模型的支持作用要优于 BS Vector。为此,本章选用 BS Vector 2 为越南语名词短语边界信息进行相似度建模
............................
第七章 总结与展望
7.1 研究内容总结
本文以越南语名词短语识别为任务,通过加强现有识别模型对越南语名词短语语言学特征的应用,提升了越南语名词短语识别的效果。从整体来看,本文研究内容可以分为三部分:第一部分是对越南语名词短语的语言学研究;第二部分是以第一部分语言学研究为基础的越南语名词短语识别研究;第三部分是对第二部分的对比分析与总结。
语言学研究部分,通过对越南语名词短语的内部词性构成、内部词性组合模式、左右边界词与左右边界词性进行统计调查,揭示了越南语名词短语的内部词性与外部边界特征,并形成了越南语名词短语内部词性组合模式库等五大语言知识库。在此基础上,设计了基于越南语名词短语内部词性组合模式的动态识别算法与基于越南语名词短语边界词性的筛选算法来对越南语名词短语进行识别。通过使用规则识别算法对越南语名词短语进行识别,归纳出越南语名词短语识别的难点与关键点,并为本文后续使用统计模型对越南语名词短语进行识别提供依据。此外,该部分还对本文得到的越南语名词短语语言学特征与词性等普通语言学特征的异同点进行了分析说明。
识别研究部分,在语言学研究的基础上,分别将越南语名词短语的边界特征与基于越南语名词短语规则识别算法的识别结果融入到 CRF 模型中,有效提升了 CRF 模型对越南语名词短语的识别效果。将越南语名词短语的边界信息融入到 Bi-LSTM+CRF 模型中,并根据越南语名词短语的内部词性组合模式特征以及其与词性之间的强关联关系,对Bi-LSTM+CRF 模型进行了改进,提升了模型对越南语名词短语的识别能力。实验结果表明,以预训练词向量、词性特征向量与 BS Vector 2 作为输入的 Attention-over-Input Layer+Bi-LSTM+CRF 架构的识别效果最佳,对越南语名词短语识别准确率达到 91.65%,召回率达到 92.48%。
对比分析与总结部分,以不同语言学信息为输入,对 CRF 模型与深度学习模型进行了对比,揭示了 CRF 模型与深度学习模型在利用语言学特征方面的异同点。该部分还对本文在第五章采用的越南语名词短语边界信息向量化与相似度建模方法进行了可视化分析,以论证这种迂回的方法对名词短语识别的有效性,从而增强了该方法的可解释性。
参考文献(略)