本文是一篇软件工程论文,本文深入分析了当前抄袭检测模型的不足之处并拓展了检测内容的范围,在当前预训练模型的表征基础上提出了基于深度学习的文本模糊抄袭和剽窃活动检测研究。
第一章 绪论
1.1研究背景及意义
得益于信息技术的快速更迭,人们获取知识的渠道和相互交流的方式有了质的提升,在万物互联时代,无论生活交流还是工作议程都可以通过网络更为有效的实现。网络中丰富的资源数据借由它共享的特点正为人们带来前所未有的便利。然而,互联网所提供的各项服务同时也为不法分子带来了可乘之机。各种针对数字化产品的复制,抄袭和剽窃屡见不鲜,在数字图像和电子文档中尤为明显。
篡改和伪造的图像被大量用于正式媒体、科学发现等,引发社会误解和财产损失,而涉及语言文字的情况则更是触目惊心,Josephson机构在众多美国中学进行了一项关于作弊抄袭的调查,结果显示约有60%的人曾经在课程作业中做过弊。无独有偶,随着计算机程序的兴起,许多软件公司和开源软件组织正遭受软件抄袭的困扰[1],黑客通过侵入服务器盗取关键代码,投机者未经创作者同意抄袭源代码应用于商业目的,产品知识版权日益受到威胁。在学术界,此类问题更值得被关注,Wager[2]引用了一位期刊编辑的话来描述当前的学术剽窃境况,“在相应期刊的论文中有约10%遭受了相当程度的剽窃”。在德国发起的一个名为VroniPlag项目,已经调查了200多起学术剽窃案例,并且还在不断增加。一篇通过抄袭他人论文而发表的文章,其引用指数可能并不亚于原创者,这种负面的传播影响加剧了此类问题的产生,而针对每一个学术不端案例的调查与研究都会花费相当的时间与精力。
..............................
1.2国内外研究现状
从技术角度看,目前的抄袭检测研究主要分为两类:外部抄袭检测研究和内部抄袭检测研究。外部抄袭检测将待测文本与参考资料集合相比较,从而检索出与待测文档超过相似度阈值的文档集,随后再将待测文档与候选文档集一一详细分析,匹配抄袭段落或句子。内部抄袭检测研究针对单个文档进行分析,不使用外界参考资料来判断是否存在抄袭。针对两类抄袭框架的研究都取得了一定的成果,下面将分别对这两类研究展开论述。
1.2.1内部抄袭检测研究概述
Meyer和Eissen等人[6]最先引入了内部抄袭的概念并展开相关研究,内部抄袭研究基于这样一个假设:每一位作者都有自己的写作风格或者说是特点,如果一篇文章由多位作者分别撰写,则必将呈现出不同的语言特征,而抄袭来自其他文档的内容势必引入他人的写作风格,据此可不通过外部参考资料而实现对文章进行判别。Stein等人[7]为此就衡量了多种写作风格特征。
内部抄袭研究包括了两个任务:写作风格检测和作者识别。作者识别一般还包含了两个子任务,作者聚类和作者验证,本文不再展开介绍。写作风格较易理解,给定一份待测文档,目标是识别出不同风格特征的段落。作者识别则是分析文章或段落来判定原作者。写作风格检测依赖于文体特征的量化分析,通常使用字符统计分析、句法特征分析和词性标注分析,另外还有反映文本组织结构的特征被采用,均获得了不错的成果。
软件工程论文怎么写
..................................
第二章 抄袭检测模型相关理论简述
2.1抄袭文本编码
在自然语言处理领域,将非结构化数字信息组成的字符集表示为计算机程序可理解的形式是一切诸如挖掘、匹配和问答等任务的前提。一个简洁、有效的文本表示方法不仅应该可以代表词本身的意思,还应该兼顾前后的语义信息,同时考虑上下文语境等多种因素。
2.1.1数字指纹技术
数字指纹技术[20]最开始的应用是对大量的网页进行去重和过滤,并在工业应用中取得了很好的效果。最早由Rabin等人[21]提出,该技术受到生物学指纹的启发,将原始文档均匀地压缩映射为数字指纹,从而代表文档的低维度指纹向量可以被用来进行数以万计的网页去重工作。指纹技术既可以应用于整个文档的表示,也可以对字级别的细粒度进行哈希映射,函数生成的方式也简单,因此在抄袭检测领域一直沿用至今,主流的数字指纹技术如下:
(1) Rabin算法
Rabin指纹算法由拉宾(Rabin)提出,可以使任意数据均匀分布在映射空间中,在诸多科学领域和工业领域中有着广泛的应用,常被用来进行快速识别重复数据以进行比较分析,例如网页URL去重,网络恶意代码的自动提取等。Rabin指纹算法的计算方法通常在有限域上操作。
(2) SimHash算法
Google在2007年发表的一篇《Detecting Near-Duplicates for Web Crawling》论文中提出了这一指纹生成算法,在Google搜索引擎网页去重中取得了显著的效果。该算法是一种局部敏感哈希算法,即相类似的字符串会被映射为相似的哈希值,相似的哈希值又以更高的概率被放在一个桶内。通过对文档数据的SimHash降维后,大大缩减了计算匹配时间。其大致过程可以分为五个步骤。
.........................
2.2 深度模块
自2006年Hinton等人[28]提出深度学习的概念后,便引发了基于深度学习的研究热潮,在众多领域中取得了巨大的成果。深度网络中更多的非线性操作层数可以学习抽取丰富的数据特征并变换表示,用以更高精度的分类和预测。本文引入了相关深度模块获取更丰富的语义信息以尝试达到更好的抄袭检测性能。
2.2.1孪生网络
孪生网络(Siamese Network)由两个结构相同的网络模块组成,且两者共享权值参数,最早由Jane Bromley[29]在论文《Signature Verification using a‘Siamese’Time Delay Neural Network》中提出,被应用于图像中的签名验证。之后因为其特点在语义分析和图像识别中有着重要的应用。
在文本匹配中,孪生网络经常被用来当作计算文本序列相似度的框架。在网络中拥有相同的编码器(通常使用卷积神经网络)对句子对进行词嵌入,在全连接层对两个单边网络的输出进行损失计算,由于完全共享的参数设置,使网络保持了相对较少的参数量,模型的复杂度也被降低,训练时间也被缩短。另外,不同维度的向量可以映射到同一个特征空间维度下,数据分布保持了一致,从而成为许多文本处理方法的模型架构。
................................
第三章 基于深度孪生网络的文本模糊抄袭检测模型 .......................... 22
3.1外部抄袭检测框架 ............................... 22
3.2候选检索 .......................................... 23
3.3模型总体流程 .................................. 24
第四章 基于跨模态的抄袭活动检测模型 .............................. 36
4.1模型总流程 ..................................... 36
4.1.1候选集筛选 ................................ 37
4.1.2数据增强 ............................... 38
第五章 总结与展望 .................................... 50
5.1工作总结 .......................................... 50
5.2研究展望 ........................................... 51
第四章 基于跨模态的抄袭活动检测模型
4.1模型总流程
本文第三章详细介绍并分析了文本模糊抄袭检测模型,这是一种基于对文本内容特征分析的方法和检测技术,是属于主流的检测方法,其目的就是利用文本元素这种构成文档的基本元素所拥有的客观事实进行取证分析。可以想到,构成抄袭文档的要素不仅有基本的文本元素,还有诸如图像、公式、结构等跨模态的非文本元素,而基于跨模态的检测技术是文本分析方法的重要补充和拓展。Gipp等人[55]提出了一种基于引文的抄袭检测方法,利用文献中的引文出现顺序进行相似性检测。Meuschke等人[56]则将注意力转向了数学表达式,他们的实验证明了数学表达式是独立于文本的有效特征。文档中的图像是主要构成要素之一,Acuna等人[57]对文献中的图形元素进行了分析,并利用图像相似度检测算法发现了大量的图片篡改抄袭情况。
软件工程论文参考
.........................
第五章 总结与展望
5.1工作总结
随着互联网和多媒体技术的广泛应用,越来越多的人们在网络中进行工作产出,特别是以文本、图像和视频等要素的形式,然而日益严重的各种抄袭现象给社会带来了严重的危害。因此抄袭检测成为一门具有重要研究价值的课题。目前抄袭检测研究的主流研究方法集中在对文本内容的检测上,并分为外部抄袭检测和内部抄袭检测。无论是哪种检测框架都对高模糊的释义检测存在识别盲区且容易受到伪装的干扰。本文深入分析了当前抄袭检测模型的不足之处并拓展了检测内容的范围,在当前预训练模型的表征基础上提出了基于深度学习的文本模糊抄袭和剽窃活动检测研究,其主要研究成果如下:
(1)在外部抄袭检测框架中,本文提出了基于深度孪生网络的文本模糊抄袭检测的详细分析网络FuzzyPlgNet。以往基于机器学习的检测方法在面对释义改述或文本修饰的情况下,存在检测精度不足的问题,我们组建了段与段的深度孪生文本匹配结构,捕获文本之间准确的语义对齐,从而发现潜藏的改述抄袭问题。模型在输入层使用预训练模型表征为文本向量,通过CNN编码层抽取文本局部特征获取精确语义信息,然后利用残差连接优化模型的训练及语义特征提取。在融合层,特征向量和文本交互层的文本交互向量进行融合,构成更为丰富的语义特征信息和匹配对齐信息。最后在预测层中,加入了低维文本匹配特征补充经过编码而损失的部分语义信息以加强检测能力。经过实验表明,在MSRP数据集中可以有效对复述文本进行匹配检测并取得了不错的成绩,同时在PAN-PC-10数据集中对人工模拟文段的检测准确率也得到了提高。
(2)在基于深度学习文本检测模型的基础上,引入了非文本元素的数据特征到模型中并提出了跨模态的抄袭活动检测模型,旨在检测更大范围内的抄袭剽窃活动。本文先探究了用户在平台中的数据特征的分布情况并做了相关统计,筛选出合适于检测的行为特征集并针对单模态的情形做了有效性实验。结果表明使用作者操作行为特征的检测手段可以识别隐藏的剽窃活动,这通常在传统检测方法下很难被检测出。其次,我们将行为识别模型与本文提出的深度文本抄袭检测模型相结合,同时分析多模态数据的特征,进一步提升模型的检测能力。实验表明,跨模态的检测方法在抄袭检测范围和精度方面都达到了优秀的水平。
参考文献(略)