基于实体特征的远程监督关系抽取探讨

论文价格:0元/篇 论文用途:仅供参考 编辑:论文网 点击次数:0
论文字数:**** 论文编号:lw202329789 日期:2023-07-22 来源:论文网
本文是一篇软件工程论文,本文提出实体感知增强的门控分段卷积神经网络(EA-GPCNN)。EA-GPCNN 探究实体与单词的关联性,将关联依赖融入到句子建模中,着重凸显实体的重要性,便于凝练更为精准的语义。EA-GPCNN 模型构造新的编码方式,以多头注意力机制为核心,增添头尾实体向量为输入,挖掘实体对与单词的语义关联,最终生成实体感知增强词表示。其次,完整的全局信息在 CNN 结构中会被分割,因此 EA-GPCNN 引入全局门结构,获取句子全局信息,然后将其融入到增强词表示中,并将其作为 PCNN 的输入。

1 绪论

1.1 研究背景和意义
互联网信息繁杂,文本数据层出不穷,这些数据信息以多种形式展现,例如微博、期刊文章、新闻、论坛等。对于这些无结构信息,人们无法直观便捷地从中得到有用的信息,并且这些信息过于冗余,难以存储。因此,在信息爆炸的时代中,以无结构文本为对象,同时兼顾速度和准确性,从中提取出有价值的信息,提高人们获取有效知识的效率,已成为人工智能领域的热点问题。基于上述背景,专注于获取特定信息的技术手段应运而生——信息抽取[1]。
挖掘文本有价值的信息,如特定的实体、有价值的关系、事件等,并将其转化为结构化数据,是信息抽取任务的目的所在。根据不同的抽取对象,信息抽取衍生出不同的子任务,其一为命名实体识别,专注于实体,其余是关系抽取和事件抽取,分别面向关系和事件的提取。命名实体识别(Named Entity Recognition, NER)[2]是进行关系抽取的前期工作。在无结构化文本中,关系抽取(Relation Extraction, RE)对实体对出现的上下文建模,并判别出它们之间可能存在的关系类型,将抽取出的关系事实组织成三元组形式(实体 1,关系,实体 2)。例如,在句子“In June 2002, Elon Musk founded SpaceX and became CEO and CTO of the company.”中,其包含实体“Elon Musk”和实体“SpaceX”,输入到关系抽取模型后,可获得关系三元组(Elon Musk, Founder, SpaceX)。
自 1998 年起,一系列的评测会议不断对关系抽取任务进行完善,吸引了大量研究者的关注,促进关系抽取快速发展,成为自然语言处理(Natural Language Processing, NLP)的热门方向[3]。在 1998 年 Message Understanding Conference(MUC)上,第一个关系抽取评测语料和测评标准被发布,主要通过关系模板抽取特定关系。下一年,Automatic Context Extraction(ACE)把关系抽取任务归入到关系探测和识别。随后的 SemEval(Sematic Evaluation)、TAC(Text Analysis Conference)等会议为研究人员提供了更加多样的关系抽取数据集,关系类型数目不断增加,研究面临的挑战变大,这也促使关系抽取领域呈现出百花齐放的局面,关系抽取性能也逐步提升。
..........................

1.2 国内外研究现状
结合本文研究内容,本节梳理密切相关的两类关系抽取任务的进展,其一为有监督关系抽取,处理对象为句子,语料规模较小。另一类是远程监督关系抽取,是前者在数据规模和领域广度的拓展,训练单元也由句子转为包。
1.2.1 有监督关系抽取
作为传统的关系抽取方法,有监督关系抽取多年来备受青睐,热度不减,风靡于自然语言处理社区。有监督关系抽取挖掘给定实体对文本的隐含关系特征信息,理解上下文背景信息,判断实体对之间的关系,等价于关系分类任务。它使用人工标注的具有固定数目关系的数据集,其中每个句子都有明显标记的头尾实体,伴随着对应的关系类别。关于有监督关系抽取的研究思路大体有三种:基于特征、核函数和基于神经网络的方法。
最大限度地融合句子中显性和隐性特征,是基于特征方法的基本思路。2004 年,来自IBM 的 Kambhatla 等人[9]融合词法、句法以及语义特征,使用最大熵模型对组合特征进行训练,最后应用于关系抽取。Zhou 等人[10]进一步丰富特征种类,探究词块特征以及来自外部的语义信息,如 WordNet[11]和 Name List,有效提高了关系抽取效果。Jiang 等人[12]将来自序列、句法解析树和依赖解析树三个不同特征表示统一成一个图形表示,结合不同特征空间的关系特征。上述方法所依赖的特征需要非常专业的领域知识,同时特征筛选要投入大量人力,构造的特征集合的有效性会直接影响到关系抽取的性能。
另外,基于核函数的方法可以减少人为参与的程度,拓展特征表达形式。根据所要处理的对象,不同的核函数设计方式各异,比如句法、依存分析树等。Zelenko 等人[13]针对浅层解析树设计核函数,衡量它们之间的相似度,最终通过 SVM 分类器[14]完成关系判别。Culotta 等人[15]认为依存树可以直观地看到每个句子的语法关联,在两者的依存树中,相似关系实例将共享相似的子结构。于是他们设计依存树核,并度量两个依存树的相似性,并进行关系分类。Bunescu 等人[16]观察到重要的关系信息通常位于依存关系图中实体之间的最短路径中,提出基于最短依赖路径的核函数来训练关系抽取模型。随后,有一些研究[17,18]通过使用多种核函数集成多样信息,以达到相互融合、相互促进的作用。就方法特性而言,核函数方法属于传统方法,基于特征的方法亦是如此。传统方法存在难以突破的瓶颈,其特征几乎都是自然语言处理工具的产物,无法避免这些工具存在的偏差,更糟糕的是,这些偏差会逐步积累,并限制模型性能的提升。
..............................

2 相关技术

2.1 词向量
自然语言文本属于非结构化信息,由一些语言符号构成,例如汉字、英文字母等。然而原始文本数据无法直接被计算机理解,需要经过一个转化过程,由文字符号变为计算机能够接收和处理的数值表示数据。在自然语言处理中,文本数据会经过语义层级分割,形如“文本—句子—单词”。作为最基本的语义单元,单词将被转化为数值词向量。词向量发展经历了两个阶段,早期为独热表示(one-hot representation),之后是分布式表示(distributed representation)。
2.1.1 one-hot 表示
one-hot 表示是一种简便直观的编码方法,它首先将给定语料所有的词构建成词表,赋予每个单词唯一的序号,然后统计词表的单词数量,将其作为向量维度的大小。这种向量是一个二元值表示,即只有一个元素为 1,对应单词的序号,其余均为 0。例如对句子“Elon Musk founded SpaceX in 2002.”构造大小为 7 的词表,则 SpaceX 的 one-hot 表示为[0, 0, 0, 1, 0, 0, 0]。
受益于 one-hot 表示精简稀疏的表达形式,稀疏存储能够极大提高存储效率。但是,当需要处理的词表达到十万乃至更大数量级时,词的向量维度亦随之变大。此时,词向量的稀疏度增大,运算变缓慢,容易造成维度灾难。另一方面,单词之间存在丰富的语义联系,词向量之间的运算应当反映单词交互的结果。但是在 one-hot 表示中,两个不同词之间的表示是独立的,难以体现出它们之间的语义相关性,无法满足语义理解任务的需求。
2.1.2 分布式表示
针对 one-hot 编码无法体现语义特征的问题,Hinton 等人[48]提出分布式表示思想,他们设想存在一个低维向量空间,文本中的每个词都在空间中有对应的稠密向量,语义相近的向量会聚集在相同的区域,含义相似的词向量距离更近,例如“广州”和“羊城”向量彼此靠近,比“广州”和“美食”之间的距离更短。在分布式表示中,SpaceX 的词向量是稠密的,类似于[0.956, 0.564, -1.019, 0.112, -0.033, 0.096, 0.883],每个维度蕴含不同的语义特征,能够更加符合现实语境需要。之后,基于分布式的词向量模型[49,50]大放异彩,在深度学习中广泛使用,它们都是建立语言模型的假设上,即某个词的上下文将决定该词表达的含义。
..........................

2.2 卷积神经网络
传统前馈网络层间神经元是全连接的,即输入层与隐藏层彼此连通,每一个输入层单元均与所有的隐藏层单元关联。由于图像特征丰富,普通前馈网络在处理图像时需要大量计算。作为一种特殊的前馈神经网络,卷积神经网络能够限制层间局部连接,减少网络参数,提高特征提取效率。
CNN 一般包含 5 层,分别为输入层、卷积层、池化层、线性整流层、全连接层。卷积层和池化层通过叠加来增大 CNN 的深度,使得底层低级特征逐层整合,实现高阶特征的拟合。在卷积层中,卷积核参数为共享权重,与输入单元保持局部连接,以滑动窗口的方式完成卷积运算,从输入数据中提取局部特征。为了提高 CNN 特征拟合能力,不同类型的特征会由多个卷积核抽取。在池化层中,根据不同特征类型的需要,采用适当的池化计算。对于卷积层的输出结果,最大池化选择保留最显著特征,选取池化区域特征最大值,而平均池化旨在获取区域特征的平均值。经过池化后,特征向量维度降低,无关参数数量锐减并且提高计算效率。考虑到文本数据的时序性,Kim 等人[51]尝试将 CNN 引入到文本分类任务。


软件工程论文怎么写

.........................

3 实体感知增强的门控分段卷积神经网络关系抽取模型 ............................... 14
3.1 引言 ........................... 14
3.2 实体感知增强的门控分段卷积神经网络 .............................. 15
4 基于实体引导增强特征网络的关系抽取方法 ........................ 28
4.1 引言 ..................................... 28
4.2 实体引导增强特征网络 ........................................... 30
5 总结与展望 ..................................... 44
5.1 本文总结 .......................................... 44
5.2 本文展望 ............................... 44

4 基于实体引导增强特征网络的关系抽取方法

4.1 引言
关系抽取[28,59-60]被视为一种从文本中提取关系的有效方法,已作为一些下游任务的辅助技术,例如知识图谱补全[7,57]和问答系统[8,58]。对于关系抽取任务,抽取性能受到数据规模的影响,但手动构建数据成本高,耗时费力,难以获得大规模训练数据。为了满足数据需求,Mintz 等人[4]设计远程监督策略,启发式地执行知识图谱关系实例与文本的对齐操作,自动快速扩充训练数据。远程监督受强假设指导进行标注,如果知识库存在1 2(e, r, e) 三元组,则所有包含实体对1 2(e, e) 的句子均被标为关系 r。然而,标记过程忽略实体上下文语境,仅依靠实体对相同这一条件,假设宽泛而不严谨,因此远程监督必定引入噪声。图 4.1 描述远程监督标注过程,句子 S1 和 S2 含有相同实体对,即“Barack Obama”和“United States”,由知识库对齐后赋予两个句子/people/person/place_of_birth 关系。然而经人工检查,句子 S2并未表达对应的知识库关系,其正确关系是 president_of,因此 S2 便成为噪声句子。


软件工程论文参考

...........................

5 总结与展望

5.1 本文总结
在关系抽取中,远程监督方法引发了双重效应。一方面,远程监督实现数据自动扩充,缓解关系抽取的数据匮乏问题。另一方面,强假设的标注策略过于宽泛,引入了噪声标注。本文就噪声标注问题,聚焦于实体特征,探究关系抽取降噪算法。具体内容如下:
1. 本文提出实体感知增强的门控分段卷积神经网络(EA-GPCNN)。EA-GPCNN 探究实体与单词的关联性,将关联依赖融入到句子建模中,着重凸显实体的重要性,便于凝练更为精准的语义。EA-GPCNN 模型构造新的编码方式,以多头注意力机制为核心,增添头尾实体向量为输入,挖掘实体对与单词的语义关联,最终生成实体感知增强词表示。其次,完整的全局信息在 CNN 结构中会被分割,因此 EA-GPCNN 引入全局门结构,获取句子全局信息,然后将其融入到增强词表示中,并将其作为 PCNN 的输入。此外,以实体对为区隔点,句子可分解为三个部分,各部分语义侧重点不同。EA-GPCNN 设计一个段级别的门控机制,专注于分段信息的权重分配,强化关键信息段,防止无关信息干扰,以期获得健壮的句子向量。从实验结果看,EA-GPCNN 模型集成了实体感知特征,实现精确的语义表示,降低噪声特征的影响。
2. 本文提出实体引导增强特征网络(EGEFN),用于远程监督关系抽取。关系判别线索通常隐藏于两个地方——关键词和短语词组,EGEFN 聚焦于它们与实体的关联性,能提取出关键的关系特征。先从单词层面开始,EGEFN 提出第一个实体引导注意力,以单词和实体对为输入,计算它们的相关性,指导模型关注关键词,捕获重要的关系特征,然后将其用于增强实体表示。本文使用 CNN 编码短语表示,EGEFN 提出第二个实体引导注意力,以短语序列和词级增强实体表示为输入,执行与单词层面相同的运算,指导模型关注关键短语,提取短语层面的关系特征,并再次用于增强实体表示。拼接两个多级增强的实体表示,拼接结果经过线性层后,被转化为鲁棒的关系表示,这个关系表示融合两个增强实体蕴含的关系特征。然后,EGEFN 采用语义融合层来融合多种语义表征,例如 PCNN 编码的句子表示、多级增强实体表示以及关系表示,来获得语义增强句子表示。最后,EGEFN引入关系度量聚合门,以鲁棒的关系表示与句子的相似性为度量,聚合所有句子特征,以取代选择注意力机制,保证模型在单句包的情况下,也能进行稳定的关系分类。实验结果表明,EGEFN 模型能更好处理单句包数据,取得更加优异的效果。
参考文献(略)
如果您有论文相关需求,可以通过下面的方式联系我们
客服微信:371975100
QQ 909091757 微信 371975100