基于深度学习的事件共指消解之软件工程研究

论文价格：0元/篇论文用途：仅供参考编辑：论文网点击次数：0

论文字数：**** 论文编号：lw202329932 日期：2023-07-22 来源：论文网

Tag：

第一章引言

1.1 研究背景
面对日益增长的海量文本数据信息，人们如何处理及运用这些自然语言，目前，正成为自然语言处理（Natural Language Processing, NLP）及人工智能领域广泛关注的一项重要的研究内容。信息抽取（information extraction, IE），作为自然语言处理领域的研究任务之一，是探究如何从海量文本数据中大规模地抽取出实体、关系、事件等指定类型的语义单元信息。

事件作为信息的一种重要表示形式，在认知心理学、语言学等学科领域引起了广泛地研究。事件是指特定的人、物等实体在特定环境或时间下相互作用、产生一定关系的客观事实，如地震、交通事故、爆炸等突发事件。一篇文章中通常包含多个事件，并且多个事件之间可能存在多种关系，比如“时序”、“因果”、“共指”等关系。本文的事件共指消解，是指同一篇文本中，任意两个事件组成一个事件对，该事件对中的两个事件是否指向同一个事件实例，如果指向同一个事件实例，那么这两个事件存在共指关系。当多个事件指向同一个事件实例，则多个事件组成一个共指事件链，在同一条事件共指链中的任意两个事件都存在共指关系。如例（1-1）所示（维吾尔语书写规则为从右向左）：

.............................

1.2 研究意义
事件共指消解在于能正确识别出篇章中事件间的共指关系，寻找出指向同一个事件实例的事件共指链。在自然语言的表述过程中，为了简洁和连贯性，人们经常省略语句成分。因此正确的识别出事件间的共指关系，有助于人们有效地结合文章上下文来理解事件的详细过程，具有共指关系的事件可以相互补充和扩展事件信息，提高最终的语言理解效果，因此，事件共指消解对把握全局信息、推测事件的演变与发展规律有着重要作用。
事件共指消解，作为整合文本事件信息的基础任务，对很多 NLP 任务都有重要的促进作用。例如，在信息抽取中，事件和事件信息已被文献[1]用于模板填充任务，文献[2]等人用于知识库的自动填充任务。在话题检测任务[3]中，事件共指信息用来识别广播新闻报道流中的新事件。在基于事件的文本摘要任务[4]中，事件共指信息被用来度量两个事件之间的相似性，反过来又可以用来判断一个句子是否是重要的。同时，事件共指信息也被用于其他任务，如问答[5]，文本矛盾关系检测[6]等。

同时，目前针对事件共指消解的研究主要集中在英文文本和中文文本，如何有效处理海量信息中报道的维吾尔语事件及事件之间的关系，建立维吾尔语事件间的联系，成为维吾尔语信息抽取研究的重要一项任务。基于此，本文开展了针对维吾尔语事件共指消解的研究。
..............................

第二章相关知识介绍

2.1 事件相关知识介绍
针对事件共指消解研究，首先简要说明事件相关定义：
定义 1. 事件（Event）：指对多个角色在具体的时间、地点等环境下参与某一主题的相关描述[21]，事件通常包括事件触发词和事件论元两种元素。
定义 2. 事件触发词（Event Trigger）：指在文本中，最能显露某一事件发生的词语，主要体现在名词、动名词和动词短语中。如例 2-1 所示:

..........................

2.2 常用语料库
本节中对中英文事件共指消解研究使用的语料库进行简单介绍。
（1）MUC 语料库
MUC（Message Understanding Conference）是最早产生支持事件共指任务的语料库[22][23]。MUC 评测中心围绕一个“场景”，根据关键事件类型和与它相关的各种角色定义。但是 MUC 未正式定义/评估事件共指:事件共指任务需要作为场景模板填充任务的一部分执行的任务。在此填充任务中，必须为文档中提到的每个事件填充一个模板（由各种事件角色/属性组成）。因此，在文档中提到两个事件时，其中一个或两个模板应该通过确定它们是否具有共指关系来填充。
（2）ACE 语料库
ACE 语料库是作为自动内容提取（Automatic Content Extraction, ACE）评估的一部分而产生的。ACE2005，是 ACE 语料库中用于文档内事件评估的最广泛使用的版本。包括中英文文件。在 ACE 中，事件被定义为“发生的特定事件，通常是状态的变化，涉及参与者”[24]。和 MUC 语料库中标注相同， ACE只标注具有事件（子）类型的事件，但 ACE 所涵盖的事件（子）类型的种类要比 MUC 语料库中涉及的多。

（3）ECB 语料库
遵循 TimeML（Time Markup Language）规范，在 ECB（EventCorefBank）[25]及 ECB 的改进版 ECB0.1[26]中，事件可以表示为准时的、持续的或静态的谓词，描述“某物获得或保持真实的状态或情况”[27]。和 OntoNotes 相同，ECB中包含跨文档和文档内两种事件共指链，并且包含 43 中事件类型。因为它主要关注与跨文档的共指消解，所以部分标注了文档内的事件链。

............................

第三章基于张量神经网络和主题向量的事件共指消解方法................................. 9
3.1 方法介绍.............................................9
3.2 模型介绍.........................................10
第四章基于门限卷积神经网络的事件共指消解方法........................................ 20
4.1 方法介绍..........................................20
4.2 特征抽取.........................................20
4.3 模型介绍...........................................22
第五章总结与展望.............................29

第四章基于门限卷积神经网络的事件共指消解方法

4.1 方法介绍

本文所做的研究工作受语言模型任务的启发，文献[41]通过在卷积层引入门限机制，减缓梯度消失，通过叠加多层来学习词序列的前后依赖关系，使得其在长文本 WikiText-103 语言模型的学习中也取得不错的效果。文献[42][43]中也提到，CNN 能有效提取词的形态特征。但传统 CNN 通过将池化层的输出进行全连接，最后输入到分类器中进行任务分类，通常只能获得局部语义信息，因此本文提出一种改进 CNN，结合 LSTM 的门限机制，通过在 CNN 模型中加入门限机制，自适应地控制信息传播，将卷积层与池化层的输出进行联合学习，获取全局语义信息。同时，根据维吾尔语事件表达的特点，从事件基本属性、词语、距离等方面提出有效的特征。同深度学习方法中学习到的事件句特征表示相结合，最终完成维吾尔语事件共指消解。

............................

第五章总结与展望
针对维吾尔语语篇中存在的事件共指问题，本文基于深度学习思想，通过探索不同深度学习模型在事件共指消解中的应用，将事件共指消解任务转化为二分类问题，分别构建事件共指消解框架。
首先，通过 Bi-LSTM 进行事件语义建模，避免了手工特征和复杂语言规则的约束。通过分析事件表达和事件特点，引入主题向量，同时，通过神经张量网络建立事件对之间的语义关联，更好的发现事件对之间的语义关系。通过模型各层输出信息的融合，从而获取多层次的事件语义向量表示，完成维吾尔语事件共指消解任务。
其次，根据门限机制在 LSTM 中的成功应用及 CNN 具有较强特征抽取能力的基础上，在此次研究中，建立基于 GCNN 的事件共指消解方法，抽取事件句全局语义特征。此外，抽取与事件共指消解研究相关手工特征，与词向量语义特征相结合，作为分类器的输入，最终完成维吾尔语事件共指消解任务，F值达到 77.97%。

本文尝试采用了深度学习模型解决维吾尔语事件共指消解任务，从而了解深度学习模型在 NLP 任务中运用的合理性。在下一步研究中，我们将探索如何获取更丰富的事件语义信息，从而实现更优的事件表示。进一步探索深度学习在事件共指消解研究中的应用，通过改进模型等方式合理、有效建模，使事件共指消解性能更优。
参考文献（略）

上一篇：基于SSD的数据库系统绿色查询优化器的软件工程研究
下一篇：基于GANs的脑部MRI图像生成方法之软件工程研究

如果您有论文相关需求，可以通过下面的方式联系我们

客服微信：371975100

相关软件工程文章