本文是一篇软件工程论文,软件是一种看不见、摸不着的逻辑产品。软件开发小组的工作进展情况可见性差,难于评价和管理。为更好地进行管理,应根据软件开发的总目标及完成期限,尽量明确地规定开发小组的责任和产品标准,从而使所得到的标准能清楚地审查。(以上内容来自百度百科)今天为大家推荐一篇软件工程论文,供大家参考。
第 1 章 绪论
语义分析和语言生成是自然语言理解的根本性问题,也是目前的研究热点。语义分析旨在将自然语言转化为机器能读懂的语言,而语言生成旨在将机器能读懂的语言转化为自然语言。本章首先介绍语义分析和语言生成各自的研究背景以及意义,接着分别对语义分析与语言生成各自的研究现状作全面的概述,最后在本章的末尾介绍研究内容及组织结构。
1.1 研究背景及意义
1.1.1 研究背景
随着人工智能[1]技术的日新月异,自然语言理解[2][3]作为计算机科学领域与人工智能领域的重要组成部分,得到了快速地发展。自然语言理解是语言文字信息处理的一项高层次技术,它更侧重于对经过深度加工处理的语言信息的理解,相当于语言处理技术在较高级语言单位上的应用基础研究。自然语言理解的研究是充满魅力和挑战的,能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。随着计算机和互联网的广泛应用,计算机需理解的自然语言文本数量空前增长,面向海量信息理解需求的急速增长,自然语言理解研究必将对我们的生活产生深远的影响。语义分析和语言生成是自然语言理解研究中的两个重要方向,也是计算语言学研究中的两大难题。语义分析分为词语级、句子级、篇章级的语义分析,其中句子级的语义分析又可分为浅层语义分析[4]和深层语义分析。如未加特别说明,本文的语义分析属于句子级深层语义分析范畴。语义分析是对自然语言所包含的语义进行识别,建立语义分析模型,根据自然语言的句法结构和句中每个词的词义推导出能够反映该句句义的某种形式化表示,即将人类能够理解的自然语言转化为计算机能理解的形式语言。例如句子“俄亥俄河有多长”,语义分析的任务是将该句子转化为相应的语义表达式,比如树形结构语义表达式“answer(len(river(riverid('ohio'))))”。 研究语义分析的方法有许多,包括基于规则、基于无监督学习方法、基于统计机器翻译模型等。本文重点研究基于机器翻译模型的语义分析,即将语义分析看作机器翻译的任务,这也是目前研究语义分析的主流方法。语言生成是指计算机把机器能读懂的形式化语言转化为自然语言,可以说是语义分析的逆过程。例如给定语义表达式“answer(size(stateid('texas')))”,语言生成的任务就是将该语义表达式转化为自然语言句子,如英文“how large is texas”。语言生成的过程是从机器语言到自然语言的转变过程,它在计算机和人类的自然语言之间构建起了沟通的桥梁。从目前来看,语言生成的研究取得了一定的进展,研究语言生成的方法有基于规则和基于统计学习方法等,但是基于机器翻译模型的语言生成研究较少。本文也将语言生成看作机器翻译的任务,重点研究基于层次短语翻译模型的语言生成和基于深度学习框架的神经语言生成。
..........
1.2 研究现状
语义分析和语言生成是自然语言理解中的基本任务。语义分析的目标在于将源端自然语言转化为语义表达式。语言生成的目标在于将语义表达式转化为自然语言。其中语义分析的源端可以是多个自然语言,即多语言到语义表达式;语言生成的目标端也可以是多个自然语言,即语义表达式到多语言。接下来将针对已有的研究,从语义分析和语言生成两方面分别进行介绍。
1.2.1 语义分析研究现状
在过去十年中,语义分析技术得到了较快发展,并取得了一定的研究成果。Popescu[9]采用传统的基于规则语义分析方法,它以语言学的概念为基础,建立一组语言规则,使计算机能够按照这组规则来正确理解自然语言。Zelle[10]从逻辑编程搜索—控制规则中学习到语义分析解析器,并使用归纳逻辑编程技术获取相关知识,属于有监督学习方法。无监督学习也可以应用到语义分析的研究中,Goldwasser 等[11]利用未标注的数据训练语义分析解析器,该文介绍的无监督学习算法采用了由置信估计驱动的自训练方法。无监督学习方法虽然节约了标注预料的时间,但是依然需要耗费一定的努力来设计算法。Kate 和 Mooney[12]充分利用线性核支持向量机将连续的词序列映射到语义单元,从而构建出语义表达式的树形结构。Lu 等[13]使用动态规划算法在混合树上学习分布,混合树可以同时生成自然语言和语义。
...........
第 2 章 相关知识介绍
本章将介绍在后续几个章节中将会用到的相关知识,主要分为以下几个部分:(1)语义表达式;(2)基于层次短语的统计机器翻译模型;(3)神经机器翻译模型;(4)语料资源和性能评测指标。
2.1 语义表达式
首先,本节首先描述本文使用的树形结构语义表达式、λ演算语义表达式,接着描述它们的预处理与后处理。表2-1给出了三个语义等价的不同自然语言的例子以及相应的树形结构语义表达式,每个树形结构语义表达式是由语义单元构成,每个语义单元可以被看作一个函数,它把其它语义表达式的特定类型当作参数,嵌套在圆括号内。类似地,表 2-2 的前三行给出了三门语义上等价的自然语言,即英文、中文、印尼文,第四行给出了与它们对应的λ演算语义表达式,其中“$0”表示变量名称。为了能够将语义分析看作是序列—序列标注任务,本文需要对语义表达式进行预处理。树形结构语义表达式:参照 Andreas 等[15]的方法,本文对树形结构语义表达式进行预处理,将它转化为类似于自然语言的一连串的字符串。为了做到这一点,本文对语义表达式中的每个函数形式进行简单的前序遍历,然后给每个函数指定一个数字标签,用来表示该函数所需要的参数个数。
...........
2.2 基于层次短语的统计机器翻译模型
层次短语翻译模型可以用来实现语义分析和语言生成的任务。基于层次短语的翻译模型是一种字符串到字符串的翻译模型。文法的主体部分由自动抽取的规则组成。抽取的过程开始于词对齐的双语语料。先获得双语语料双向的词对齐,然后取双向词对齐的并集作为最终的词对齐。接着,从词对齐的句对中抽取满足词对齐关系的规则集合。这个过程可以分为两步。第一步,使用大多数基于短语模型的方法识别出短语对,称为初始短语。非形式化地,一个初始短语对要满足至少由一个词对齐存在于两个短语之间,并且两个短语之间的所有词对齐不能超过两个短语的范围。
...........
第 3 章 语义分析...........18
3.1 问题描述及相关研究..........18
3.2 基于层次短语翻译模型的语义分析........19
3.3 多语言到语义表达式的神经语义分析....26
3.3.1 双编码结合.....26
3.3.2 多语言到语义表达式的注意力模型.........28
3.3.3 实验......29
3.4 本章小结........33
第 4 章 语言生成...........34
4.1 问题描述及解决方案..........34
4.2 基于层次短语翻译模型的语言生成........35
4.3 语义表达式到多语言的神经语言生成....42
4.3.1 编码—双解码模型....42
4.3.2 实验......44
4.4 本章小结........45
第 5 章 语义分析和语言生成在机器翻译中的应用..........46
5.1 问题描述及解决方案..........46
5.2 基于 n-best 语义分析结果的语言生成....47
5.3 实验结果与分析.......47
5.4 本章小结........50
第 5 章 语义分析和语言生成在机器翻译中的应用
语义分析和语言生成是自然语言理解中的重要组成部分。并且语义分析和语言生成各自的应用很广泛,但鲜见将语义分析和语言生成结合起来的应用。为了能同时利用语义分析和语言生成的优势,本文提出了将语义分析和语言生成结合起来应用于机器翻译。具体而言,本文首先基于机器翻译模型分别构建语义分析模型和语言生成模型;在此基础上,将语义分析结果作为语言生成模型的输入,语言生成结果作为机器翻译的最终结果。实验结果表明,本文提出的语义分析语言生成结合起来的方法能够有效提高机器翻译的性能。
5.1 问题描述及解决方案
语义分析是自然语言理解中的一项基本任务,致力于将人类的自然语言转化为机器能读懂的语义表达式。语义分析的应用很广泛,例如词汇情感判别[49]、跨语言检索[50]。语言生成是自然语言理解的另一项基本任务,语言生成主要是将语义表达式转化为自然语言,可以说语言生成是语义分析的逆过程。如果将语义分析与语言生成结合起来,将有着重要的应用价值。本文提出将语义分析和语言生成结合起来应用在机器翻译中。语义表达式是一种结构化的语言,语言生成可以利用它所包含的语义信息将语义表达式转化为一种或多种自然语言。如果将一种自然语言作为语义分析的源端,另一种自然语言作为语言生成的目标端,而这两种语言对应的共同语义表达式作为中间的过渡性语言,从整体上来看这就实现了一种自然语言到另一种自然语言的机器翻译任务。具体地,先利用基于层次短语翻译模型的语义分析(或者基于编码—解码模型的神经语义分析)将一种自然语言转化为语义表达式,接着利用基于层次短语翻译模型的语言生成(或者基于编码—解码模型的神经语言生成)将前一步生成的语义分析结果转化为另一种自然语言。整个过程就实现了中文到英文的机器翻译任务。虽然将语义表达式作为两种语言转换过程中的过渡性语言能够紧紧抓住语义表达式所承载的深层语义信息,但是语义分析和语言生成结合起来应用存在两个主要问题。第一个问题是错误积累,即语义分析过程中产生的错误会传递到语言生成,为了缓解错误积累,本文提出 n-best 翻译结果过滤的方法;第二个问题是语言生成结果中会出现与参照结果语义相同但表达形式完全不同的句子,针对该问题,采用多参照评测方法来对语言生成结果进行评测。
.........
总结
本文的研究内容主要包括语义分析、语言生成、语义分析和语言生成在机器翻译中的应用。本文的主要研究工作可以总结如下:
(1)基于层次短语翻译模型的语义分析:语义分析可以看作机器翻译的任务,即自然语言作为机器翻译的源端,语义表达式作为机器翻译的目标端。但是考虑到语义表达式是一种结构化的语言,传统同步上下文无关文法往往难以适用语义分析的任务,因此针对以上问题,本文提出了基于层次短语翻译模型的语义分析方法,其核心思想是增加同步上下文无关文法中非终结符的数量。另外,本文同时分析了几种对齐方式对语义分析结果的影响,归纳出三种对齐方式结合起来使用时的效果最优。为了更好地翻译未登录词,本文为未登录词的翻译生成翻译规则。实验结果表明,本文的方法能够有效增加短语规则覆盖面,能获得较高的语义分析性能。
(2)多语言到语义表达式的神经语义分析:大多数语义分析的研究集中在单个自然语言的输入,本文探索将多种自然语言同时转化为语义表达式的语义分析方法。为了能够实现多种自然语言的输入,本文提出了双编码—解码模型,即在现有编码—解码模型的基础上增加一个编码器,让每一种自然语言对应一个编码器。本文具体介绍了双编码—解码模型中两个编码器输出信息的结合方法、两个注意力值的结合方法。在多个语义分析语料上的实验结果表明本文提出的双编码—解码模型能够有效提高语义分析性能。
..........
参考文献(略)