第一章 绪论
1.1 选题背景及意义
越南与我国毗邻,在国家“一带一路”战略下,越南与我国的交流合作越来越密切,机器翻译也正成为打通中越两国之间各项合作的快速通道,有着非常重要的应用前景。但是目前汉-越机器翻译的研究工作还相对有限,这是因为越南语的独特性、复杂性以及汉-越双语知识库、平行语料库的资源匮乏,同时基于大规模的神经机器翻译方法还不能完全适用于汉-越机器翻译,这就导致了汉-越神经机器翻译训练不足、泛化能力较差,翻译效果不理想。所以开展汉-越平行句对抽取的研究工作,是解决平行语料匮乏的关键难题,提升汉-越神经机器翻译质量,将对中越两国之间的经济、政治和文化的交流产生重要影响,同时对汉-越神经机器翻译方法的研究具有非常重要的理论和应用价值[1][2]。
近年来,随着人工智能的快速发展,互联网上积累了大量的汉-越双语资源,如维基百科汉-越页面,双语对照新闻网站,汉-越双语小说、电影等,同时互联网上存在大量对同一新闻不同语言的报道,这些报道都是对同一事件的描述,但并不是完全对齐的双语文本,我们称之为可比语料。由于严格平行的语料标注成本很高,因为它们需要专门的专业知识,而且对于低资源语言通常不存在,同时质量相对较低的可比语料也可以用于提升神经机器翻译性能。所以,本文考虑到在句子中不同词语表征的难易程度不同,句子语义信息不充分的情况,结合可比语料的特点,在当前神经机器翻译框架下,利用语义自适应编码的方法,对句子中不同难易程度的单词使用更深层次的计算进行表征;同时考虑到目前平行句对抽取模型都比较单一,忽略了文档级上下文信息以及文本之外的图像信息,所以对句子语义信息利用不足,导致句子语义信息不充分,提取到的句子质量不高,噪声比较大,汉-越神经机器翻译的性能不太理想。所以本文又提出了一种融合文档级上下文信息、图像信息的汉-越伪平行句对抽取方法,该方法可有效缓解汉-越双语平行语料的稀缺以及语言差异性较大难对齐的问题,从而提升汉-越神经机器翻译的性能。
.......................
1.2 国内外研究现状
由于本文的主要研究内容是围绕着平行句对抽取的任务,从不同侧面利用不同的方法展开研究的,但最终目的都是提取高质量的汉-越平行句对,改善低资源下汉-越神经机器翻译的性能,所以本节我们将分为两个部分来介绍国内外的相关研究现状,首先第一个部分介绍的是伪平行句对抽取研究现状,第二部分介绍的是面向可比语料的机器翻译研究现状。
1.2.1 伪平行句对抽取研究现状
伪平行句对抽取是自然语言处理(Natural Language Processing,NLP)中的一项基本任务,通常被公认为是一种语义识别任务或句子语义匹配任务。给定一对句子,匹配模型预测它们的语义相似度,被广泛应用于问题回答系统和对话系统中[3][4]。通过分析发现,目前在平行句对抽取和句子语义匹配方面的研究工作大致可分为两类:第一类是基于特征工程的方法;第二类是基于神经机器翻译模型的方法。
第一类基于特征工程的方法主要是包括融合句子长度信息、双语词典信息以及一些句法结构等信息。首先基于句子长度信息的方法是根据源语言和目标语言句子长度来判断它们之间的对齐关系,这种方法的缺点就是准确率不高、容易受到句子长度信息的影响,而且对于很多语言不适合,因为很多句子长度不同,但是它们表达的语义信息却是相同的;例如 Gale W A 等人[5]提出了一种基于字符长度的统计模型对齐平行文本中句子的方法,识别源语言句子和目标语言句子之间的长度对应关系。其次基于词典信息的方法相对来说提取到的平行句对质量较好,但是特定领域的词典以及一些未登录词限制了这种方法的匹配效果,所以局限性比较大;例如 Chuang T C 等人[6]提出了一种结合双语词典信息的方法对齐了双语平行文本。基于句法结构信息的方法是从更深层次去挖掘语义信息,这样提取到的平行句对质量更高,但是这种方法只能针对特定的语言,同时还需要大量的时间去标句法结构信息,所以难度较大。综上所述,这些方法通常依赖于特定语言的相关知识,对于其它语言并不适用。
第二类是基于神经机器翻译模型的方法,主要是利用现有的神经机器翻译模型来提取源语言和目标语言的语义特征信息,然后将它们映射到公共的语义空间中,比较它们的语义相似度,进行平行句对的抽取。例如 Grégoire F[7]等人使用了一种端到端的深度神经网络方法,并利用孪生双向递归神经网络对双语句子的连续矢量表示来检测两种不同语言的句子之间的互译关系。Utiyama M 等人[8]提出了一种利用机器翻译的方法将日语翻译成英语,最后再将英语翻译成中文,构建了中日平行语料库。由于利用机器翻译的方法来构建平行语料,容易受到翻译模型性能的影响,难以保证翻译的质量。随着文档级对齐语料数量的不断增加,缓解平行数据稀缺问题的一个潜在解决方案就是从这些更丰富的信息源中抽取语义更加相似,描述更加完整的句子,以增加平行数据的数量和所覆盖域的范围。其中,文档级对齐语料库可以定义为主题对齐但非句子对齐的多语言文本的集合。
...........................
第二章 汉-越语料库的构建
2.1 引言
语料库是机器翻译的先决条件,研究机器翻译首要工作就是构建大量的双语平行语料库。然而对于汉语和越南语这样的低资源语言来说,可用于训练的平行语料规模小,质量较差,这就导致了汉-越机器翻译性能得不到提升。但是在互联网上存在丰富的汉-越双语可比语料,包括句子、新闻文档、小说等。因此本文通过网络爬虫从互联网上爬取汉语、越南语新闻文本以及小说文本,获取大量的汉-越双语语料,构建了汉-越双语语料库。
工作主要是基于新闻网页、维基百科和小说网来获取模型所需的汉-越双语语料,进一步构建语料库。收集诸如中国新华社、人民日报,越南快讯、越通社、越南政府网及维基百科网站等汉语、越南语的单语及多语新闻网站和维基百科网站,分析网站结构,解析 HTML 页面,结合 python 爬虫程序和 XPath 技术定制新闻文本、维基百科获取模板,对新闻网页、维基百科网页进行分解,获取新闻页面、维基百科页面的标题、关键字、新闻正文、维基百科正文等重要信息,实现了新闻信息、维基百科信息的自动获取。对于爬取的汉语、越南语新闻文本、维基百科文本,选用 Mongo 数据库进行存储,并建立索引,实现对大量文本数据的快速检索。
表 2.1 越南语新闻、小说网站示例
2.2相关工作
从可比语料库中提取伪平行句子并构建平行语料库提升机器翻译性能是目前对于低资源语言来说比较有效的一种方法,最理想的方法是手工进行抽取,但是这样成本比较高。利用统计机器翻译和神经机器翻译两种方法从可比语料库中抽取句子是比较有效的方法,也都有学者进行了研究。在统计机器翻译方法中,Rauf[19-23]等人提出了用统计机器翻译的方法翻译可比语料库的源语言部分,并将这些翻译作为查询,从可比语料库的目标语言方面进行信息检索生成平行语料库,提高了统计机器翻译的性能;而 Abdul-Rauf[24-27]的工作是翻译可比语料库的源语言侧,然后和目标句子比较,以在目标语言侧找到候选句子;Alberto[28]等人提出了一种从维基百科自动提取域内可比语料库的模型,可以自动提取单语和可比较的文章集,并为按需语言对和领域提供一键式生成并行语料库,改善了机器翻译质量,并将其应用于特定领域的语料库。虽然上述方法取得了一定的成就,但是需要在翻译模型性能比较好的基础上才能进行,同时在信息检索技术中存在词语义信息不足。
而在神经机器翻译方法中,Raj Dabre 等人[29-31]将神经网络的特征整合到一个健壮的并行句子提取系统中,该系统由一个并行句子候选过滤器和一个用于并行句子识别的二进制分类器组成,然后在维基百科数据上进行实验表明,神经网络功能在句子提取的准确性和统计机器翻译性能方面都显著改善了强大的基线系统。而 Francis Gregoire 等人[32][33]是基于双向递归神经网络分别对源语言和目标语言进行编码,然后经过分类器区分源句子和候选目标句子是否平行;Cristina Espana-Bonet 等人[34][35]通过测量翻译之间的相似度以及语义相关和语义不相关的句子对来评估语言对的质量和有效性,然后结合上下文向量和相似性度量在可比语料库中识别平行句子,达到了预期的效果;Juryong 等人[36-38]提出了一种基于语言资源查找相似句子的方法,使用语言资源的顺序匹配在句子之间执行相似度计算,用于从维基百科构建英语和韩语之间的平行语料库;Resnik 等人[39-41]提出了一种基于 HTML 从 Web 中提取相似文档的方法;Talvensaari 等人[42]提出了一种利用主关键词从源语言到目标语言的翻译词找到相似文档的方法。综上所述,这些方法都是从句子级扩充训练数据,然后构建高质量的平行语料库。虽然他们的方法都能很好的抽取到伪平行句子,改善机器翻译的性能,但都是针对丰富语言(例如英语-法语),而在低资源语言(例如汉语-越南语)上性能就比较差,同时提取到的句子噪声较大。本文在神经网络模型的基础上,引入了语义自适应编码的方法,更深层次的挖掘汉语和越南语的语义特征,然后比较它们之间的语义相似度,从而提取更高质量的汉-越伪平行句子,提升低资源下汉-越神经机器翻译的性能。
................................
第三章 基于语义自适应编码的汉-越伪平行句对抽取方法研究 .. 13
3.1 引言 ............................... 13
3.2 相关工作 ............................ 14
第四章 融合文档级上下文信息的汉-越伪平行句对抽取方法研究 25
4.1 引言 .............................. 25
4.2 相关工作 ............................. 26
第四章 融合文档级上下文信息的汉-越伪平行句对抽取方法研究 25
4.1 引言 ....................... 25
4.2 相关工作 .......................... 26
第六章 原型系统的设计与实现
6.1 引言
随着越南与我国的交流合作越来越密切,在国家“一带一路”战略下,汉-越机器翻译也正成为打通中越两国之间各项合作的快速通道,所以设计一个汉-越神经机器翻译原型系统有着非常重要的应用前景。在前面三章中,我们详细的介绍了融合文档级上下文信息、图像信息的汉-越伪平行句对抽取方法,并通过理论分析和实验对比,验证了本文方法抽取平行句对的有效性。在本章节中我们将结合前面三部分的理论研究成果,设计并实现了融合图文信息的汉-越伪平行句对抽取系统和融合图文信息的汉-越神经机器翻译原型系统,该系统可以有效的获取汉-越伪平行语料,以及为汉-越神经机器翻译提供实验平台。原型系统采用目前比较主流的 B/S(浏览器/服务器)架构,具有业务扩展方便、开发和维护简单、共享性强等特点,使得用户能更加方便获取帮助。
本原型系统是基于 Django 框架,利用 python 语言进行开发的,基于 MVC 模型,即 Model(模型)+ View(视图)+ Controller(控制器)设计模式,MVC 模式使后续对程序的修改和扩展简化,并且使程序某一部分的重复利用成为可能,可视化的展示了系统对汉-越双语句对的预测结果和句子的翻译结果。
图 6.1 原型系统整体架构图
第七章 展望与总结
7.1 论文工作总结
本文主要研究了融合文本和图像信息来提高汉-越伪平行句对抽取的质量,提升低资源下汉-越神经机器翻译的性能。首先,介绍了如何构建可比语料库;其次,提出了一种基于语义自适应编码的汉-越伪平行句对抽取的方法,在此基础上,为了更近一步丰富句子上下文语境信息,提出了融合文档级上下文信息的汉-越伪平行句对抽取方法,同时,为了使得模型能够共同关注文本和图像信息,提出了融合图像信息的汉-越伪平行句对抽取的方法,最后,将提取到的句子对用于训练机器翻译模型并显示了翻译性能的显著提升。论文的主要研究工作总结如下:
(1)汉-越双语可比语料库的构建
本文首先利用 Scrapy 爬虫从互联网上获取了大量的汉-越双语可比语料,同时分析维基百科页面的结构特点,结合页面概念链接关系提取基于维基百科的汉-越双语可比语料;分析新闻事件特点,利用维基百科可比语料为桥梁,结合新闻事件要素关联及维基百科可比语料,研究跨汉-越双语文本相似度计算方法,研究跨语言新闻事件相关性分析方法,并对数据进行筛选,构建了大量的汉-越双语文本可比语料库。
(2)基于语义自适应编码的汉-越伪平行句对抽取方法
由于传统的伪平行句对抽取方法都是基于语义相似性度量,没有考虑不同词语语义表征的难易程度,因此导致句子语义信息不充分,提取到的句子质量不高,噪声比较大。本文提出了一个双向 LSTM 加语义自适应编码的语义表征网络框架,根据句子中单词表征难易的不确定性,引导模型使用更深层次的计算。具体思路为首先对汉语和越南语句子进行编码,根据句子中单词语义表征的难易程度,自适应的进行表征,深度挖掘句子中不同单词的语义信息,实现对汉语和越南语句子的深度表征,然后在解码端将深度表征的向量映射到统一的公共语义空间中,最大化表示句子之间的语义相似度,从而提取更高质量的汉-越伪平行句子。最后通过实验证明了本文模型优于基线模型,同时将提取到的句子对用于训练机器翻译模型并显示了翻译性能的显著提升。
参考文献(略)