第 1 章 绪论
基于机器学习的方法对特征选取的要求比较高,需要选择对命名实体识别任务有影响的各种特征,并将这些特征组合成向量来表示文本中的词语。命名实体的内部构成和外部语言环境都可以作为识别的特征[32–34]。比如人名中的姓氏用字比较集中;地名和机构名有一些常用的后缀,比如“**市”、“**公司”等;地名还常和“位于”、“到达”等动词搭配使用。按照特征类型分类,命名实体识别通常使用的特征包括词语特征、词性特征,还可以使用词典特征等。Cho等(2013)则抽取了百科知识库中实体的上下文构成全局的词表帮助生物领域命名实体的识别[35]。另外也有研究者对于特征的选择进行研究,Ekbal和Saha(2013)将多目标模拟退火算法融合了命名实体特征选择和分类[36]。有指导的机器学习方法主要的不足是数据稀疏问题,即训练数据不足。常见现象出现频率高,统计方法有效,而对很多不常见的长尾现象,在有限的标注语料中不足以显现其规律性,机器学习方法常常不能很好地处理。于是研究者设计使用平滑技术,来处理稀疏数据的难题,但稀疏数据始终是机器学习面临的挑战。机器学习方法相对于规则方法的一个改进在于可移植性,理论上,同一个模型在不做任何修改的情况下,可以应用于任何领域的命名实体识别任务。但实践证明,这种迁移并不能保证识别的效果。比如Ciaramita和Altun(2005)研究发现在CONLL 2003 评测的路透社新闻语料上训练的模型,在来源相同的路透社语料上进行评测,F值可以达到0.908,但在华尔街杂志语料上评测,F值骤降为0.643[37]。
...........
第 2 章 基于双语平行语料的汉语命名实体训练语料自动构建
2.1 引言
虽然有不少关于半指导或无指导机器学习的方法被提出,旨在利用少量的标注样本以及大规模的未标注数据来训练命名实体识别模型,也取得了不错的效果[43],但本文从另外的角度解决上述问题,采用自动生成大规模语料库的方法来提高汉语命名实体识别模型的性能。由于汉语缺少大小写信息,以及汉语分词引入的错误,汉语命名实体识别的难度远大于英语命名实体识别,现存的英语命名实体识别系统效果普遍好于汉语上的系统。幸运的是,通常应用于机器翻译任务的大量中英双语平行语料提供了一座从英语命名实体到汉语命名实体的桥梁。通过词汇的对齐,英语命名实体的信息(包括边界和类型)可以被映射到汉语中,用来标注汉语的命名实体。本文中,我们利用现有的一个英语命名实体识别系统和平行语料自动地生成大规模的汉语命名实体识别语料。
2.2 相关工作
An等(2003)[100]和Whitelaw等(2008)[101]利用搜索引擎检索网络文本资源来生成命名实体识别训练语料。他们利用一些种子实体,在搜索引擎中检索,获取包含这些实体的句子。An将这些句子直接作为训练语料,构建了一个韩语命名实体语料库,并且在其上训练的模型得到了与人工标注语料相近的结果。Whitelaw则利用这些句子以及网页HTML结构等信息获取模板,然后利用模板抽取更广泛的命名实体训练实例。这种方法的不足之处在于种子集合的构建同样是比较耗费人力物力的。Richman和Schone (2008) [102]、 Nothman等 (2008, 2013) [103, 104] 以及Ling和Weld(2012)[14]运用了类似的方法从维基百科生成命名实体识别语料。他们首先将维基百科上的文章进行分类,比如分为人名、地名、机构名和其他。然后利用文章之间的链接关系,将锚文本进行标注,从而获得命名实体训练语料。但文章分类时同样需要事先花费人力来构建一些种子。
第 3 章 基于自学习的开放域命名实体边界识别 .................................... 40
3.1 引言........................................ 40
3.2 相关工作................. 41
第 4 章 基于多信息源的开放域命名实体类别获取 ................................. 57
4.1 引言.................................. 57
4.2 相关工作........................ 58
4.2.1 基于模式匹配的方法 ................ 58
第 5 章 基于词汇分布表示的开放域命名实体类别层次化........................ 75
5.1 引言................................. 75
5.2 相关工作......................................... 76
5.2.1 语义层次化相关工作 ................. 76
第 5 章 基于词汇分布表示的开放域命名实体类别层次化
5.1 引言
但通过进一步的观察,我们发现上下位关系要比简单的向量之间的差更加复杂。因此,我们利用一个映射矩阵来刻画上下位关系,即一个词汇的分布表示乘以这个映射矩阵约等于其上位词分布表示。进一步,我们通过分段的映射矩阵来更好地刻画不同的上下位关系。接着,我们利用这些映射来判断给定的词对是否符合上下位关系。据我们所知,这是第一次将词汇分布表示应用于上下位关系的判断。我们人工构建了一个评测集用于实验对比,包括418个中文开放域命名实体及其上位词的层次关系。据我们所知,这也是第一个中文上位词层次关系语料库。我们的方法在这个评测集上取得了73.74%的F1值,显著好于其他方法。另外,我们的方法和Suchanek等(2008)的方法[58]具有很好的互补性,将两者结合,可以进一步将F1值提高到80.29%。
5.2 相关工作
基于模式匹配的方法不直接产生语义的层次化体系,而是抽取成对的上下位关系,然后这些上下位关系可以组合成一个层次化体系[64,72]。上一章也提到,基于手工模式的方法仅能覆盖复杂多样的语言现象中的一小部分,导致召回率不高;基于自动生成模板的方法对句法分析和语料质量的要求较高,因此实际应用是效果也不理想。另一类方法基于词语分别相似度,它们基于一个假设,即一个上位词的上下文范围要比其下位词的上下文更加宽泛,严格来说,后者是前者的一个真子集[79,81](详见4.2.2小节)
...........
结 论
鉴于此,本文基于多个信息来源,模拟人的行为在整个互联网范围内搜索和挖掘命名实体的类别,取得了较好的效果。进一步,我们还挖掘了类别之间在语义上的上下位层次关系,并构建命名实体知识库。具体地,本文的主要研究内容和成果可以概括如下:首先,针对汉语命名实体识别因语料不足而导致的领域过拟合问题,本文提出了一种基于双语平行语料的命名实体语料自动构建方法。通过双语平行语料中的词汇对齐为桥梁,本文将英语命名实体的标注信息映射到汉语中,并通过多种策略筛选高质量的句子组成汉语命名实体训练语料。其次,针对汉语尚缺少开放域命名实体边界识别训练语料的挑战,本文提出一种基于自学习的边界识别模型训练方法。由于其他语言也没有成熟的开放域命名实体边界识别工具,所以并不能直接使用上述基于双语平行语料的方法构建汉语开放域命名实体边界识别的训练语料。而通过分析开放域命名实体的特点,我们发现开放域命名实体包括专有名词和名词复合短语两种形式,因此可以分别构建这两部分训练语料。
...........
参考文献(略)