面向法律文书知识图谱构建探讨

论文价格:0元/篇 论文用途:仅供参考 编辑:论文网 点击次数:0
论文字数:**** 论文编号:lw202329783 日期:2023-07-22 来源:论文网
本文是一篇软件工程论文,各项结果数据表明,本文提出的面向法律文书知识图谱构建方法可行有效,能够从法律文书中抽取出相应的实体和实体关系,可以为后续辅助搜索、智能问答、大数据分析等更深层次方面的应用提供帮助。

第1章 绪论

1.1 研究背景及意义
随着中国社会的飞速发展与法律制度的不断完善,全国法院审理案件数逐年增加,法官年均受理案件高达百余件,司法资源跟进速度远远不及案件增加速度,使得司法机关陷入“案多人少”的困境[1]。另外,由于诉讼制度改革的推进[2],要求办案人员在保证案件处理效率的同时还要避免个人因素导致审判差异,确保案件的公正性。在多重约束下,办案人员的工作压力与日俱增,如何科学有效地提高司法案件的处理效率和公正性成为一个亟待解决的问题。“智慧法院”是由最高人民法院信息化建设工作领导小组提出的概念,其主要利用现代人工智能技术,秉持正确的司法理念,将司法规律与各项改革相结合,以高度信息化方式建设司法体系,形成新的组织、建设、运行和管理形态。江西法院按照上级领导指示的信息化基本工作路径,在智慧法院网络化、阳光化、智能化方面取得了优秀的进展。江西高院投资开发的“收转发 E 中心”得到了中国最高人民法院的高度赞赏,被推广至全国法院学习借鉴,成为“智慧法院”建设过程中的重要成果。
自然语言处理是一个具有巨大应用前景的重要技术,被广泛应用于互联网以及信息技术行业,包含了信息抽取[3]、机器翻译[4]以及智能问答系统[5]等。它的目标是实现人与计算机之间使用自然语言进行有效的通信,具有重要的理论与实际意义。知识图谱(Knowledge Graph)作为自然语言处理任务中比较前沿的技术,在法院信息化建设工作中拥有巨大的潜力,它是一种利用图模型来描述知识并构建事物之间关联关系的技术方法。知识图谱分为两类,通用知识图谱因其知识覆盖范围广、涵盖领域多的特性,是目前最常见的也是使用最多的知识图谱类型。领域知识图谱主要针对特定领域,强调知识的深度,针对司法领域复杂且严谨的知识特点,构建法律文书领域知识图谱是更好的选择。同时,机器学习的成熟以及图数据库的成熟都为法律文书知识图谱的构建提供了强有力的支持。
.........................

1.2 国内外研究现状
1.2.1 司法人工智能
人工智能技术应用于司法领域的时间最早在上世纪 70 年代,1970 年,Buchanana 等[6]提出将人工智能编程技术应用到法律推理任务中,具体的实现方法有归纳推理和模拟法律,这是人工智能对新领域的一次突破性尝试。国际人工智能与法律协会1(IAAIL)于 1987 年成立,它是一个非盈利性质的组织,目标是促进人工智能与法律领域相结合,以达到更高层次以及更好的发展。在美国,联邦法院为推动法律诉讼的信息化,开发了案件管理系统以及一系列量刑风险评估软件,目前已在多个州县得到了很好的应用[7]。现阶段,我国司法人工智能发展十分迅速,应用场景十分广泛,包括智能辅助文书处理和智能转换庭审笔录等提高办事效率的新兴技术。但是,我国智慧法院建设发展过程中还存在一些不足之处,主要体现在不同城市的信息化建设进度不统一,部分地区建设滞后,人员不够专业,难以适应新环境,智能系统不够人性化以及不方便操作等问题。暴露了法律界与人工智能界的不契合以及法律相关数据的不充分、不全面以及结构化不足等问题。
高翔[8]对法律知识图谱在司法人工智能领域的应用进行了详细的阐述,他以事实型民事判决书为研究目标,得出现阶段人工智能技术还未达到能够代替法官的技术水平的结论。舒等[9]论述了“智慧法院”知识体系的构建方法,说明了现代信息技术的重要性以及知识图谱构建过程中的难点。
1.2.2 实体抽取
实体抽取又可以称为命名实体识别,它的主要任务是从文本中抽取出特定的实体信息元素,是构建知识图谱的基础。实体抽取问题的研究已经有很长的历史,总体上可以将已有的方法分为基于规则、基于统计以及基于深度学习的方法。
基于规则的方法通常依赖相关方面专家,利用专业知识,人工构造规则,可以提供参考的特征有统计信息、标点符号、关键词等,这类方法通常得到的实体抽取规则数量十分庞大,然后将规则与文本中的字符进行匹配,达到识别实体的效果,它的优点在于算法的复杂度低、方法简单、实现简单。国外对于实体抽取的研究时间比较早,cT AKES[10]词典在早期生物医学领域的实体识别任务中发挥着重要作用,它从电子临床病历文本中提取信息,构建了一个开源的自然语言处理系统。这种实体抽取方法经过实验证明,在小型的数据集上有着优异的表现,但是随着数据集的不断增大,规则所涵盖范围越来越小,需要付出极大的人工代价对规则进行补充。并且该方法的可移植性较差,同一套规则对于不同领域的应用表现相差悬殊。
............................

第2章 相关理论与技术

2.1 知识图谱
2.1.1 知识图谱简介
知识图谱技术是自然语言处理任务中的重要组成部分,它以结构化的方式展示出客观的概念、实体与实体键的关系。知识图谱技术是一种更优的处理互联网中海量信息的方法,将互联网的内容表示为更符合人类认知世界的样子。所以,建立一个优秀的知识图谱,可以在智能搜索、个性化推荐系统等智能产业领域中展现出其不可比拟的优势,将其运用在司法领域也有着广阔的前景。
知识图谱是自然语言处理技术中重要的技术之一,它主要由节点以及边两个部分组成。节点可能是实体,例如一个人、一本书等,也可能是抽象的概念,例如互联网、区块链等;边可能是实体的属性,例如年龄、长度等,也可能是实体之间的关系,例如伙伴、师生等。知识图谱的发展历史如图 2-1 所示。Tim Berners-Lee 在 1989 年希望创造一个全球化的信息系统(Linked Information System),这一思想为万维网(World Wide Web)的诞生提供了良好基础;1998 年,他又提出了语义网(Semantic Web)概念,成为了知识图谱的早期理念;2012 年,谷歌公司开始提供称为知识图谱的搜索引擎服务,它的目的是为了使搜索引擎返回的结果更加准确,从而使用户搜索质量和体验得到更好的提升。知识图谱与传统专家知识工程在构建方式以及规模上都有着很大的区别,传统专家系统时代主要依赖人工获取知识,覆盖范围小,现代知识图谱运用领域也大大拓展。现阶段,运用最广泛也最成熟的知识图谱为通用知识图谱,它以网络中开放数据以及社区众包为知识主要来源,以三元组事实型知识为主要内容,大多数采用面向开放域的Web 抽取,知识质量要求低,知识覆盖面广,但是没有深度,对于特定领域的知识不能很好地表达。领域知识图谱以领域或公司内部的数据为知识主要来源,知识结构相较于通用知识图谱更加细致,抽取的质量要求同样更加严格,较多的使用联合抽取方式获得知识,具有极大的实用价值。


软件工程论文参考

.........................

2.2 相关技术介绍2.2.1
中,因为离散符号化的词语不能蕴涵语义信息,所以需要将词映射到向量空间,向量可以方便计算机的计算而且能够充分表达词的语义。词的表示方法通常有离散表示和分布式表示两种。
离散表示方法把单词视为一个原子符号,每个词表示为一个长向量,向量的维度取决于词表的大小。独热编码(One-Hot Encoding)如图 2-3 所示,向量中仅有一个维度值为 1,其余维度均以 0 填充。词袋模型(Bag-of-Words,BoW)是另一种表示方法,如图 2-4 所示,这个方法将文本比作一个装着词语的袋子,它不考虑词之间的上下文语义关系,将所有文本中出现的词汇组成词典,对所有词进行编号,记录每个词在这篇文本中出现的次数。离散表示方法虽然赋予每个词一个数字编码,但是它不能将词与词之间隐含的关联关系表示出来。同时,当词表过大时,向量维度也会很大,表达效率不高。


软件工程论文怎么写

................................


第 3 章 法律文书实体抽取.................................. 16
3.1 数据预处理........................................ 16
3.1.1 文书特征.......................................... 16
3.1.2 文书切割........................................ 17
第 4 章 法律文书实体关系抽取.................................... 31
4.1 关系定义..................................... 31
4.2 BERT-Att-BiGRU 模型 ................................... 32
4.2.1 Attention 机制 ......................................... 32
4.2.2 BERT................................. 33
第 5 章 知识图谱构建与展示................................... 41
5.1 知识图谱结构定义........................................... 41
5.2 构建流程................................................ 43
5.3 Neo4j 数据库存储 ....................................... 44

第5章 知识图谱构建与展示

5.1 知识图谱结构定义
判决书内包含了大量的案件信息,主要包括了案件号、法院名、原被告基本信息、辩护人基本信息、案件描述、原被告称述、判决结果、判决依据以及审判人员等。结合以上信息,我们根据三元组的基本组成部分来构建知识图谱。
(1)实体,实体是对客观个体的抽象,一个人、一部电影、一句话都可以看作是一个实体。在法律文书中,主要的实体是人、审判机关以及案件本体。人员主要有原告、被告、审判人员。原告在刑事案件中有公诉机关和自诉人,民事案件中一审称为原告,二审称为上诉人。被告在刑事案件中定义为被告人,民事案件中一审称为被告。审判人员主要为审判长、人民陪审员、书记员以及审判员等。审判机关一般特指法院。
(2)类型,类型是对具有相同特点或属性的实体集合的抽象。法律文书中的类型主要为诉讼方、诉讼对象、委托诉讼代理人、审判人员、法院等。
(3)属性,属性是对实体特征的描述。判决书自身属性包括案件号、判决书类型、立案时间、开庭时间、案件基本情况、判决结果、裁判原则等。案件基本情况主要有案发地点、时间、相关人员及组织等,裁判原则主要包括审判依据的法律条文。审判人员主要属性为审判人员的角色定位以及审判人员的姓名信息。诉讼方、诉讼对象以及辩护人的属性主要包括姓名、性别、身份证号、家庭住址等,如果为企业或机构,则应包括企业机构名,企业机构地址等。
(4)关系,关系实体与实体之间关系的抽象。法律文书的案件描述以及双方陈述中包括双方关系但不限于第三者或更多人物之间的关系。论文主要针对案件本身进行关系和实体的拓展,对于浅层的实体关系通过直接定义的方式进行确认,案件与原被告关系定义为原告和被告关系;案件与审判人员的关系定义为审理关系。通过对上诉记录以及案件基本情况的实体关系抽取,论文人为总结定义了六种更深层次的实体关系,分别为合作、夫妻、父母、借贷、买卖合同以及劳务关系。根据以上定义,可以更加直观地展示法律文书中各实体之间的关系。
............................

第6章 总结与展望

6.1 总结
随着科学技术的不断进步,人工智能技术拥有着越来越广阔的应用前景,在司法人工智能领域,自然语言处理技术已经运用在多个方面。法律文书作为具体实施法律的重要手段,包含了许多离散的司法信息,面对海量的法律文书,如何从中获取并利用这些信息显得十分重要。知识图谱技术能够将含有大量有用信息却杂乱无章的数据通过数据挖掘、信息处理技术,使用图形绘制显示出来,通过知识图谱技术能够很好地将法律文书中的知识抽取并展示出来。论文主要围绕面向法律文书知识图谱构建技术为主要研究点,从实体抽取、实体关系抽取以及知识图谱构建与应用三个方面进行研究,提出了法律文书知识图谱的构建方法并加以实现和展示。完成的具体工作如下:
首先调查研究了当前法院信息化建设的目标、已有成果以及未来发展方向,介绍了知识图谱的构建流程以及使用到的相关技术。通过对法律文书的分析,提出面向法律文书知识图谱构建方法,期望通过知识图谱挖掘法律文书中隐含信息。
针对法律文书实体抽取任务,提出了基于规则的实体抽取方法以及基于深度学习的实体抽取方法。分析法律文书半结构化特性,借助正则表达式抽取首部及尾部含有一定规则的内容,主要包括原告、被告、委托代理人、审判人员、案件号、案件名称等。对于法律文书中的上诉记录、案件基本情况、判决结果以及裁判原则等没有明显规律且语句复杂的内容,使用 BiLSTM-CRF 模型进行更深层次的实体抽取,主要目的是为了对实体进行补充。实验效果证明实体抽取的准确率都达了预期目标,为后续法律文书的实体关系抽取提供了良好的保障。
针对法律文书的实体关系抽取任务,人工定义了六种实体关系,提出了BERT-Att-BiGRU 模型,以 BERT 代替传统的词向量使得输入关联性更加紧密;GRU 的使用能够减少模型的参数量,提高硬件的运算速度,减少时间的消耗;Attention 机制能够更加准确地定位文段内容的重点,提高实体关系抽取的效果。通过实验证明,论文提出的实体关系抽取模型有着 80%的准确率,效果良好。
最后定义了知识图谱的结构,使用 Neo4j 图数据库存储知识三元组,利用文中训练的模型对法律文书进行模块化处理。可以通过 Cypher 语言对知识图谱进行查询,并将相应的查询内容以图的形式展现出来。
参考文献(略)
如果您有论文相关需求,可以通过下面的方式联系我们
客服微信:371975100
QQ 909091757 微信 371975100