第1章 绪论
1.1 研究背景及意义
课题来源于中科院计算所“面向 Web 文本的因果知识获取方法研究”项目。该课题针对传统词典不能满足语义分析等问题构建了一个名为语义分类和描述框架(Framework of Semantic Taxonomy and Description,FSTD)的知识库,旨在通过持续补充不同类型的事件来构建一个大型的语义类框架网络,并在此基础上获取事件的常识。该知识库参照框架语义学,定义了文法、例句等框架槽,每个框架槽都有对应的槽值。
人类每天都使用常识来协助完成各种事情:人用嘴吃饭、喝水可以解渴、跑步需要不停交替两条腿……人与人之间的日常交流也是基于许多常识。由此可见,常识与人们如影随形。如果想要让人工智能像人类一样思考问题,为人们服务,那么人工智能就必须和人一样掌握大量的常识知识,并且能够在的环境下利用这些常识知识进行推理。但目前为止,常识知识获取方面的工作仍然没有像想象中一样获得重大突破。
事件是常识知识获取的处理单元,包含了大量的信息,这些信息的背后同样蕴含着许多常识。事件是许多领域中最基础的概念之一,但不同的领域对事件有着不同的认识和描述:在计算机信息学领域,HowNet[1]将事件定义为语言描述的基本单位,认为事件涵盖一切运动、变化和状态。在自然语言分析与知识工程交叉领域,鲁川[2]认为知识的基本单元是事件,认为一个事件在语义上的形式化表达是一个简单的事件网络。刘宗田[3]将事件定义为“在某个特定的时间和环境下发生的、由若干角色参与、表现出若干动作特征的一件事情”并把事件定义为一个六元组。语言学领域,Chung[4]认为事件由谓词、谓词发生的时间以及发生的条件组成。虽然众多学者对事件的认识并不完全相同,但他们都认为事件是人类认识世界的基本概念之一,也是人工智能中自然语言理解和知识获取等任务的基本处理单元。
.............................
1.2 国内外研究现状
1.2.1 常识研究现状
人类对于世界的理解主要通过单词、语义等知识,因此研究人员创建了各种类型的常识知识库。
Cyc[6]于 1984 年开始创建,目标是构建人类最大的常识知识库。Cyc 由术语(Terms)和断言(Assertions)组成,术语包括概念、关系和实体的定义,断言用来建立与术语之间的关系。目前,Cyc 中已经包含 500 万条常识,这些常识全部由知识工程师手动录入并且使用谓词演算进行描述。Cyc 最大的特点是基于形式化的表示来刻画知识并且可以支持一些较为复杂的推理。
ConceptNet[7] 由麻省理工学院开发,旨在帮助计算机理解句单词含义的语义网络,同时,它也是开源的。与传统的基于统计的方法不同,ConceptNet 的开发者提出,想要让计算机能够真正理解文本,必须在系统中添加常识知识,使计算机能够像人一样思考,才能真正地了解深层的语义知识,ConceptNet 由断言组成,每个断言也是一个三元组,每个节点称为一个概念,概念与概念之间由语义所连接,概念可以是一个实体,也可以是各种类型的短语。ConceptNet 的语料来源于 OMCS,包含时间、运动、地点等各种类型的生活知识。最新的 ConceptNet5 中已经包含 2800 万关系描述,并且描述更加接近于自然语言的描述,此外,ConceptNet 完全开放并且支持多种语言。
ATOMIC[8]是一个包含推理常识的知识图谱。由事件关系和三元组(事件,关系,事件)构成。ATOMIC 中共包含 3 类事件:事件导致心理类、事件导致事件类和事件导致表象人格类和 9 种关系,其中 9 中关系分别为 X 为什么想发起这次事件、X 在此次事件之后的感受、其他人在这次事件之后的感受、X 需要干什么才能导致这次事件、这次事件对 X 的影响、X 在这次事件之后想干什么、其他人在这次事件之后想干什么、这次事件对其他人的影响以及别人会如何看待 X。ATOMIC 专注于“IF…THEN”关系的研究。作者通过生成式训练,使神经网络模型获得了从该图谱中获得简推理的能力,在实验结束后再使用人工判断的方法来检验。结果表明,ATOMIC 大部分的关系准确率在 50%左右。
.............................
第2章 FSTD 框架的扩充
2.1 FSTD 的介绍
FSTD 是中科院计算所针对传统词典不能满足语义分析等问题构建的知识库,旨在通过持续补充不同类型的事件来构建一个大型的语义类框架网络,并在此基础上获取事件的常识。FSTD 参照框架语义学,定义了文法、例句等框架槽,并在前人定义的基础上对其中的一些槽进行修改和补充,每个框架槽都有对应的槽值。图 2.1 为 FSTD 自移事件中跑事件的语义框架,共包含 4 个槽,分别是“定义槽”、“文法槽”、“谓词槽”和“例句槽”。下面对每个槽进行具体介绍。
软件工程论文怎么写
“文法槽”中包含了事件相关的所有语义文法产生式,也称语义文法或文法。语义文法产生式是自然语言领域中对句子分析的结构进行分析的一种方法。以文法为基础利用中科院计算所优化后的 Early 算法[16],可以解析出每个句子的句子结构,并得到分析结果解析树。语义文法产生式包含左部和右部两个部分。左部是一个非终结符,非终结符的内容一般为语义类或事件类的名称,右部由非终结符和常量终结符组成,每个终结符或非终结符的内容都由一对尖括号“<>”所封装。框架中的所有语义文法产生式基于具体的事件,使得 Early 算法抽取的准确性非常高。
...........................
2.2 FSTD 存在的问题及解决方法
虽然分析事件的语义及事件间的关系可以获取大量事件中的隐含常识,但本质上依然是通过手工来获取,且对获取者的要求较高。同时,通过分析事件间的关系确实可以获取相似的常识,但却没有为事件的划分提供具体的划分依据,也没有将具有相似语义特征的事件分为一类具体分析。
因此,本文对 FSTD 框架进行扩充。为了有效地扩充框架,同时保证获取的常识知识的可靠性,需要找到可靠且便于计算机处理的语料。定义作为一种通用的解释,对事物做出了明确的描述。事件的定义中对事件的本质特征进行了简要的说明,通过这些特征可以区别不同的事件。事件的属性反映了事物的本质,是事物的特征。属性客观存在、不以人的意志为转移。属性值定义了属性的特征,也称为属性的值域。人们用属性来研究事物,并通过不同的属性或属性值来区分事物。因此,本文从事件的属性中提取出事件的特征作为属性值,并给定属性值的属性,每个属性和属性值对都是一条事件相关的常识。
本文提出在 FSTD 中增加“属性槽”,在鲁川的对事件分类的基础上研究其中的自移事件,将整理出的自移事件属性与从自移事件的定义中抽取的对应属性值,以“属性:属性值”对的形式放入语义框架中。本文参考了 HowNet 和 FrameNet,同时依据《现代汉语词典》等汉语工具书,分析并总结出了更加完善的自移事件的事件属性。构建自移事件的属性库,将总结的属性作为自移事件的属性,并填入对应从自移事件定义中获取的属性值,确保属性库中所有的属性与属性值对的配对都是正确的。对自移事件的定义预处理后,使用 K-means 聚类算法对预处理后的定义进行聚类,计算属性库中属性值到类簇的距离得到类簇对应的属性,最终得到自移事件属性库。最后以“属性:属性值”对的形式放入 FSTD中每个自移事件的框架中。
...........................
第 3 章 基于自移内涵的自动分类方法 .................................. 30
3.1 自移事件自动分类方法 ................................... 30
3.2 自移事件的继承方法........................................ 32
3.3 自移事件的分类结果与分析 .............................. 33
第 4 章 自移事件的语义约束的获取 ..................................... 37
4.1 自移事件属性的谓词表示 ........................................... 37
4.2 自移事件的关系及其谓词表示 ............................. 38
第 5 章 总结与展望 ........................................ 50
5.1 总结 ....................................... 50
5.2 工作展望 ................................ 51
第4章自移事件的语义约束的获取
4.1 自移事件属性的谓词表示
知识表示是计算机处理文本的基础,逻辑推理基于一阶谓词逻辑表示[55],是一种基于数理逻辑的最基本的知识表示方式,由“谓词”和“个体变元”两个部分组成。利用一阶谓词逻辑的表示方法可以精确地描述一个事件以及不同事件之间的关系[56-58]。
一般而言,每个事件属性都对应一个二元关系。例如,跑事件的事件属性“自移主体”关联了跑事件及自移主体的属性值,它对应的事件谓词为:自移主体(X, Y),其中 X 为自移事件变量,Y 为 X 的自移主体变量。对于一个具体的事件“孩子在跑”,可以表示为:自移主体(跑, 孩子)。根据上述方法,将所有的自移事件属性对应到相应的谓词表示,表 4.1列出了自移事件属性对应的谓词及其变量说明。
软件工程论文参考
第5章 总结与展望
5.1 总结
我们身处在一个充满常识的世界。太阳从东边升起,西边落下,鱼在水里生活,鸟在天空中飞翔……常识与我们如影随形。想要让人工智能像人类一样思考问题,为人们服务,那人工智能就必须和人一样掌握大量的常识知识,并能够在一定的环境下利用这些常识知识进行推理。常识知识获取一直是人工领域的核心难题,许多专家学者构建了常识知识库来辅助获得常识知识,例如:CYC,FrameNet,ConceptNet 等。但目前为止,常识知识获取方面的工作仍然没有像想象中一样获得重大突破。
人脑中存在着大量的常识,但却很难将这些常识全部写出来,常识的隐含性、领域性使得常识知识获取异常困难。因此/为此,中科院计算所提出了 FSTD,旨在通过持续补充不同类型的事件来构建一个大型的语义类框架网络,并在此基础上获取事件的常识。该知识库参照框架语义学,定义了文法、例句等框架槽,每个框架槽都有对应的槽值。并在此基础上,提出了多种常识获取角度和常识获取方法。
但 FSTD 仍存在不足。本文针对 FSTD 研究中存在的问题进行了分析,提出了一种FSTD 扩展的方法。首先,参考了 HowNet 自移事件语义框架中自移事件的语义角色中和FrameNet 中的框架元素,分析并总结出了更加完善的自移事件的事件属性,然后使用 K-means 算法对预处理后的自移事件定义进行聚类,获得了包含自移事件属性和对应属性值的自移事件属性库,最后将得到的自移事件的属性与属性值表示为“属性:属性值”的形式放入 FSTD 中每个自移事件的框架中。
相似的事件具有相似的常识,因此有必要对所有事件分类。自移事件的属性为事件分类提供了依据,本文统计了自移实际属性在所有事件中的出现次数,并根据出现次数对所有自移事件属性分配优先级,依据自移事件属性的优先级对七百多个自移事件进行分类,实验证明这种分类方法可以可以将具有相同语义的事件分为一类,还可以获得一个较为完整的自移事件分类框架。分类后发现,部分自移事件具有相同的自移事件属性,因此本文在所有自移事件分类后,继续对自移事件进行分类,将自移事件分为子事件和父事件,子事件拥有父事件的全部属性,并且可以继承父事件的全部常识和语义文法。
参考文献(略)