淡谈汉语财经评论之修辞结构标注

论文价格:0元/篇 论文用途:仅供参考 编辑:论文网 点击次数:0
论文字数:**** 论文编号:lw202322477 日期:2023-07-20 来源:论文网

1 引言


1.1 篇章语料库建设的意义

语言工程的最终目的是低成本、高效率地处理海量非受限的自然话语1。想达到自动理解话语的目的,就得依赖我们的语言学知识和语言处理技术。这使得篇章研究和带语言学信息的篇章语料库建设显得十分必要。篇章分析领域的内容很多,因此在篇章语料的标注上也有很多类型,有些有大的理论框架支撑,有些则兼取各家之长自成体系。在各种篇章结构的理论中,以修辞结构理论为指导的篇章修辞层级标注在最近几年取得了显著的成绩。世界上第一个英语 RST 篇章树库于 2003 年建成公布,是可供学术社区使用的大规模、高质量、高一致性的参照语料库。之后许多篇章处理方面的重要进展都建立在该树库的基础之上,比如自动篇章剖析、机器翻译、作文评分系统软件,阅读水平测试系统等等。从笔者目前收集到的资料来看,涉及到中文篇章的语料库项目国际上有正在进行的同指标注、汉语篇章连词的标注2和中英文平行句法树库建设;国内有涉及到复句和句群关系标注的清华中文树库项目,但就笔者目前所知,尚未有与英语RST树库可比的汉语篇章修辞结构树库项目。事实上真正应用RST理论进行汉语篇章分析的成果也不多见。不过我们通过对比研究认为,RST 关于篇章的基本假设不仅与很多传统汉语研究提出的观点相同,而且在一些研究方法和研究结论上也很相似。由于汉语对篇章的相关研究没有发展出一个易被计算机系统执行的形式化理论;而英语在类型意义上最接近汉语,加上现代汉语受西方文化的影响又非常大,因此英语 RST 的研究成果对汉语研究极具参考价值。如果我们通过探索性的定量研究证实中文篇章分析可以应用 RST 理论,那么就可以改造一些国际上公开的基于RST的篇章处理技术,缩小与英语信息处理的差距。这同时也有利于我们继承和发展传统研究关于中文篇章的一些理论成果。

1.2 现代汉语 RST 篇章树库建设的方法

出于上述的动机,我们建立了一个汉语财经评论篇章语料库,含 400 篇国内主要媒体的财经评论,约 80 万字。该语料库在语料选材上与英语和德语的篇章修辞结构树库有比较好的可类比性。然后我们遵循国际篇章树库的建设规范,根据当前的技术条件,对篇章语料库中的所有语料进行了如下的处理和分析:1) 通过有人工干预的预处理,统一了 CJPL 语料的编码格式和一些重要的标点符号形态;2) 通过研究标点符号在 CJPL 语料中的分布规律和语法特点,制定了一个基于标点符号的基本篇章分析单元(EDUA)边界标示符的添加规则,并借此完成了篇章语料的半自动切分;3) 作为普通读者3对语料进行了基本信息标注,包括体裁、题材、标题、篇章组织元素、导语、开头、结尾、出处、作者、来源等;

2 研究背景

本章介绍我们建设汉语财经评论篇章树库的背景,包括修辞结构理论简介、国际修辞结构树库建设的现状、汉语RST研究现状和汉语相关研究与RST理论的比较四个部分。

2.1 RST 理论简介

RST 理论虽然只有二十多年的历史,但文献、评论和相关研究项目众多,本节只能简单介绍它的发展历史、基本假设和核心概念、经典 RST 关系集、形式化表达、应用成果等。另外还要简单介绍一下 RST 与其他理论的关系,以及研究人员对 RST 理论的一些评价和总结。

2.1.1 发展历史

修辞结构理论是二十世纪八十年代美国南加州的为了完成一项计算机生成自然语篇的项目,在对大量文本进行详尽分析的经验基础上,独立于其它语言学理论发展起来的。当时参与这项研究还有的等人。从 1983 年Mann和Thompson初步提出该理论的基本框架起,RST就有很多追随者,尤其在计算语言学领域,研究人员常用它来计划生成连贯的语篇或剖析各种自然语篇的结构。RST理论的一些内容历经创始人Mann和Thompson的多次改动,其它学者也在该理论的基础上有所发展创新5,但RST最广为人知的版本是Mann和Thompson 1988 年在Text上公开发表的论文,被视作经典RST。期刊对MT1988 文的引用始于 1989 年,对RST其它的技术报告则更早一些。截止到 2005年 7 月 5 日,科学网(Web of Science)对 1988 年的论文有 137 次引用,Google Scholar显示有 525 次引用,CiteSeer记录了 167 条对 1988 论文的引用。此外,对Mann和Thompson (1987a) 则有 172 次引用6。可以说RST自一开始就很流行。在互联网上,有Mann为RST建立的专门网站7和邮件讨论小组,上面提供了很多文献、链接和已标注语料等,包括一些在RST理论探讨上有影响的文献,读者还可以获取O’Donnell等人为RST开发的各种RST文本分析和绘图软件。关于RST的概括性介绍文章有Bateman and Delin(2005),

2.1.2 核心内容

从理论构建的最初,RST创始人就对语言使用的性质和如何解释这种性质持有以下一些基本观点:(1)话语是用来交际的,因此要想说明话语本身,就必需对说话人和听话人的参与有个明确的解释8;(2)说话人的意图普遍是有层次的;(3)话语的结构比其他任何事物都更能反映说话人的意图和目标;(4)语言形式、语言功能和话语结构是以一种松散的方式,而不是以某种类似一一映射的方式相互制约的,因此并不总有什么特定的词汇或语法形式唯一地标记话语的结构特征。RST 理论的核心是修辞关系的概念。修辞关系存在于两个互不重叠但又有明显联系的语段之间,是未经陈述但可以引申出来的关系命题。RST 中的语段概念是任何一部分从文本组织的角度上看有功能整体性的一个文本跨段。关系存在于语段之间,由关系定义来确认。由于它们各自对实现作者的交际意图的作用不同,一个修辞关系的两个语段中比较重要的一个就叫做核心单元,相对不太重要的一个叫做卫星单元。除了核心-卫星类的单核心修辞关系,语篇中还有一类多核心的 RR,在这种关系中的两个(或多个)语段同样重要地实现着作者的交际意图,因此都是核心。将修辞关系与特征性单元的核心性地位进行绑定是 RST 理论的本质特点。核心性的转移,即变换特征性单元的核心性地位,本身并没有产生一种新的修辞命题(比如原因关系和结果关系没有什么本质的差异),只是对某个修辞谓词的两个论元在位置上作了调换。但核心性转移会造成篇章焦点的转移,这对作者表达一个连贯的交际意图来说很有影响。因为 N-S 的区分实际上反映了在任何多单元的语篇中,哪些部分实现着作者的中心目标,哪些部分补充或附属于那些实现中心目标的目标。如果某关系中的 S 被删除,留下的 N 仍能在语篇中实现基本同样的功能;但如果删除 N 而只留下 S,该语篇就不再那么连贯了。另外,和 N 不同,S 能够用不同的信息来替换而不改变整个片段的功能。

2.2 国际 RST篇章树库建设现状综述

篇章分析领域的内容很多,因此在篇章标注上也有很多类型,主要有:(1)话题标注,包括对文本中所描写的事件或活动的信息的标注;(2)同指标注,标注将事物与前面某个篇章元素联系起来的指称词语(代词、有定名词短语等);(3)时间标记语和时间关系标注;(4)句间关系标注等。这些标注,有些有大的理论框架支撑,有些则兼取各家之长自成体系。特别是有关篇章结构的标注,由于相关的理论很多,所以标注的类型也最多。不过,即使是大的综合树库,也不可能对语料进行全面的篇章标注,一般只能一次关注某一方面或某几个方面,如回指指称、时态分析等,然后再逐步扩大到其他方面。例如,在宾州树库英语语料的篇章层级标注中,目前已经完成的有命题库、回指关系标注、篇章关系标注等,在建的有连接语及其论元标注(PTDB)项目。利用一定的语言学理论进行标注的好处是可以很快建立起比较完整的树库标注体系和规范,能最大可能地保证标注的一致性和客观性。但这种理论框架必须是实际可用的,并且在一个合理的时间内可以被重复应用于大量的文档,而且要在标注者之间能保持一个显著的一致性水平。在各种篇章结构的理论中,以RST为指导的篇章修辞层级标注在最近几年取得了显著的成绩。已经建成的带修辞结构信息的篇章语料库有两个,其中一个德语语料库尚未公开。其他语言的RST树库标注项目要么正在筹划要么正在进行,如巴西葡萄牙语、丹麦语、日语等。除了构建书面篇章的RST树库,还有人尝试使用RST标注复杂的基于任务的口语对话,利用已有口语语料库来建设一个口语RST树库。当前国际上篇章处理方面主要的方法和最新的成绩都使用了英语RST树库,比如自动文摘、机器翻译、作文评分系统(ETS用来批改作文的e-rater软件)、阅读水平测试等等。另外,正在建设中的巴西葡萄牙语RST树库26也已经对语言教学发挥了积极的影响。不过,篇章修辞结构标注目前仍是一个相当主观的过程。在心理语言学等相关研究并不充分的情况下,对标注人员的培训要求高,持续时间长,并需要达到一定的规模。为解决这一问题,研究人员在各个语种的修辞树库建设项目中,都根据现有的条件,采用了不同的原则和规范来保证篇章的切分和标注的一致性,有些还执行了一致性评估测试。下面重点介绍一下英语 WSJ-RST 树库和德语 PCC 树库的基本方法。


2.2.1 英语 WSJ-RST 篇章树库

已经建成公布的英语 WSJ-RST 篇章树库是当今最大的篇章树库。该库语料取自《华尔街日报》,覆盖了财经报道、一般故事、商业新闻、文化评论、社论、以及读者来信等多种话题。由一批在语言分析和新闻报道方面有专业经验的、经过反复培训的标注者对这些文章进行独立标注。通过多次讨论和修改,英语RST树库建设者们设立了一个由 53 个单核和 25 个多核关系组成的关系库,分成 16 个更为一般的关系类(详见附录 5 及 3.4.3 节讨论)。根据手册规定的各项标准和处理方案,多名标注者独立使用软件27在图形环境下进行修辞关系及结构的标注,对每一个片段只给出一种最可能的关系。在最初阶段标注 100 篇文献之后,还修改了标注规则,并重新调整部分标注结果。为了保证该标注质量,Marcu 等人不但要求标注者对标注结果进行反复修改,而且还设计了局部随机的自动交叉核实程序来进行质量控制。为了测量标注者之间的一致性,还对其中的 53 篇进行了再次标注。由十多个人工作了整整一年后28,Marcu等人发布了这一供研究使用的篇章修辞结构标注参照语料库。最后标注完成的 385 篇文章共有 176,000 多个词,总共含有 21,789个基本篇章单元,平均每个文档 56.6 个,基本篇章单元的平均词数为 8.1。由于国际语言资源联盟(LDC)挑选的是宾州树库中那些已知句法分析处理得比较好的文本,所以该WSJ-RST语料库还有其他层次的语言学标注信息。

2.2.2 带修辞结构信息的德语 PCC 语料库

除了英语的 RST 树库,还有德语 PCC 语料库也已经完成了 172 篇德语报刊评论文的修辞结构标注。这是一个由 Potsdam 大学的一些学生在学位论文的过程中建立的语料库,语料选用了一份地方报纸上发表的德语新闻评论(内容涉及地方、全国或国际问题)。文章的平均长度为 28.6 句。PCC 的建设人员设计了一个自动程序来完成篇章分析单元的切分工作。他们利用定式动词和一些选定的标点符号,获得了小句层级的基本分析单元。在篇章修辞关系的标注过程中,提出将手工标注分成两个阶段:第一阶段标注简单的词汇性连接语及其关系标记,第二阶段确定更为复杂的总体篇章树。为此,他们开发了一个带德语分析工具的环境和基于 XML 的陈述性资源,由 ConAno 工具对连接词及其辖域和关系进行有效的互动的标注,标注结果再导入到RSTTool 程序中来完成最后的树结构。修辞结构标注由两个受过 RST 培训的标注者执行,他们开始先处理第一批 10 个文本,经过深度的讨论和修改后,再标注剩下的文本并进行交叉检验。整个过程标注者之间总是有讨论。针对篇章结构歧义,提议用不确定修辞标注语言来处理,即在可以指派几个修辞关系而不是只能指派一个关系的时候,通过共享森林来表示这些关系。该种标注方法允许分析的某些方面暂留空白。例如,核心性比较容易确定,但在核心单元和卫星单元之间的具体关系可以暂不确定;同样,某些语段的范围可以在没有处理更多文本之前暂不确定。PCC 篇章树库还有一个由十篇评论组成的‘核心语料库’已完成词性、句法、修辞结构、连接语、同指以及信息结构等所有各种不同的信息的标注,剩余数据的处理程度各不相同。

2 研究背景...........5

2.1 RST理论简介...........5

2.1.1 发展历史...........5

2.1.2 核心内容...........6

2.2 国际RST篇章树库建设现状综述...........15

3 方法论和语料处理...........35

3.1 语料选择...........35

3.2 预处理...........37

4 数据分析...........119

4.1 中文财经评论的篇章结构特点...........119

4.2 篇章提示标记在修辞结构中的作用...........129

结论

可以说,汉语篇章作为话语单位,其结构类型、组合手段和形式标记,到分句一级,都具有较好的层级同质性。参考汉语复句关于多重复句的研究成果,可以预见,到小句层级也有比较好的同质性。我们认为,在看到修辞关系在各个层级分布比率有差异的条件下,看到汉语篇章结构层级的同质性可以比较合理地解释汉语篇章单元间的包孕能力,也可以从理论上保证机器递归地使用形式语法规则。

参考文献

1.曹逢甫.《主题在汉语中的功能研究》(谢天蔚译).1995.语文出版社.

2.陈群秀.信息处理用现代汉语虚词义类词典研究和工作单设计.《新加坡会议论文集》. 2004 年 7 月.

3.陈忠华.邱国旺.修辞结构理论与修辞结构分析评介。《外语研究》.1997 年 03 期

4.戴炜华.薛雁.修辞体裁分析和修辞结构论.《外语教学》.2004 年第3 期.

5.邓瑜.新闻评论界说新探。我写传媒网 2004-5-28 发布。

6.丁法章(主编).《新闻评论学》.复旦大学出版社.1997.

7.范荣康.《新闻评论学》.人民日报出版社.1988。

8.方梅。指示词这和那在北京话中的语法化.《中国语文》2002 年第 4 期.
9.冯光武.汉语语用标记的语义、语用分析,《现代外语》2004 年第 1 期.

10.冯志伟.《自然语言的计算机处理》.上海:上海外语教育出版社。1996.


如果您有论文相关需求,可以通过下面的方式联系我们
客服微信:371975100
QQ 909091757 微信 371975100