面向非对称和多标签的文本分类技术软件研究

论文价格:0元/篇 论文用途:仅供参考 编辑:论文网 点击次数:0
论文字数:**** 论文编号:lw202329900 日期:2023-07-22 来源:论文网
本文是一篇软件硕士毕业论文,本文就主要描述了分类过程中遇到的两个问题并且在两个问题上展开了研究,本文提出的两个问题主要是分类中的数据不均衡问题和多标签问题,不管对于什么领域的分类,一般都会面临着数据不均衡问题的挑战,由于传统的分类算法都是基于各类数据之间的样本数量是相当的原则来进行设计的,这些分类算法在均衡的数据集上学习得到的分类器的分类性能都是比较好,但是当遇到数据不均衡的时候,这些分类算法会表现出和先前截然不同的状态,一般分类性能都会急剧下降。造成数据不均衡问题的原因也有很多,比如某些类的数据的获取很难,也有可能数据在标注过程中会出现标注瓶颈而导致数据不均衡等原因,因此当问题出现时,就需要一个合理的方法来解决这个问题,而大量的研究人员就会绞尽脑汁的想办法,可能会想出不同类型的方法,传统的对于数据不均衡的解决途径主要有 3 种,数据层的重采样方法、对某些算法进行改进或优化以及对某些特征选择算法进行改进或者提出新的特征选择算法,这些方法在不均衡数据问题取得了不错的成效。而对于多标签问题在文本分类中也是比较常见的,且各个领域的分类都可能出现,对于传统的单标签分类,一般分为二分类和多分类,就是在描述一条数据对象时,只用单一的标签来作为这条数据的类别,这个标签是来自于标签集合中的某一个标签,因此在使用分类算法进行模型的学习过后,对一个未知样本的预测标签也只能有 1 个。

第一章 绪论

1.1论文研究背景和意义
随着信息技术的快速发展,目前世界正处于一个信息爆炸却缺乏知识汲取的时代。据统计,中国的网民数量目前已经达到了一个惊人的数字,大约有 7.7 亿以上,导致中国的互联网普及度很高,大约 55%以上。各个领域的信息资源尤其是文本资源随着信息技术的发展而呈现一个爆炸式增长的趋势,但是用户在如此无序杂乱而又庞大的文本资源库中快速地、准确地获取可用信息将会变得异常困难。文本分类技术作为一种重要的数据挖掘技术,它能够有效地解决了海量文本数据的杂乱与无组织的问题,帮助用户快速且准确地定位到所需的文本信息。文本分类的应用很广泛,在信息检索中,为了方便用户查找有用信息,检索系统通常会利用分类技术事先将信息库中庞大的文本数据进行归类,用户可以通过输入某个关键词来进行检索;在舆情监测中,监测系统会根据公众发表的言论和观点进行分析归类来判断信息的好坏,进而遏制不良信息在网上传播所带来的负面影响;在新闻分类中,利用文本分类技术对新闻进行分类,方便用户浏览自己感兴趣的新闻等。

文本分类一般会涉及到多个技术,比如中文的分词技术、文本的特征提取、文本的向量化表示以及分类算法的提出,在进行文本分类时通常会遇到非对称问题和多标签问题两个重要的研究课题。由于中文文本一般都是由多个连续的字符组成,在中本文词汇一般是作为表达语义的最小单位,而中文分词就是专门针对中文文本的一门技术;文本的特征提取指的是提出特征选择算法抽取出对分类有重要作用的词汇集合;文本的向量化表示指的是将无结构化的文本表示成向量的形式,以供计算机进行相关的操作。在文本分类中,非对称问题对于分类器的分类精度影响非常大,而在实际应用中通常会伴随着非对称问题的发生,用分类算法在此不均衡的数据集上训练得到的分类模型大多数的情况下预测的结果会偏向于多数类,这样的分类器是没有什么太大的作用了,例如用分类模型检测出银行的欺诈用户,正常用户的数量往往会远远大于欺诈用户的数量,由此数据得到的分类模型往往会偏向于多数类,因此会将欺诈用户错分成了正常用户,这样的分类模型对银行是不利的,因此研究非对称问题是有必要的;以情感分类为例,一篇文章通常会包含多个情感,而用传统的单标签分类对其进行分类只会得到一种情感标签,这样的描述是片面的、不准确地,而多标签分类能更形象地对其进行描述,因此研究多标签这个课题是有必要的。论文选取了文本分类中最艰难且又非常重要的两个课题进行了研究,具有很大的现实意义。

..........................

1.2国内外研究现状
文本分类技术是文本数据挖掘中的一门重要技术,以文本形式存在的数据随着大数据时代的出现也变得越来越繁杂,会使用户搜索和分析文本数据变得异常困难。文本分类的作用是巨大的,它的出现可以让人们快速地、准确地找到所需要的信息,因为分类可以使种类繁多、数量庞大和内容复杂的文本数据变得更加有序和规范。文本分类过程如下:利用预先设定的分类算法在大量已标注好的文本数据上训练学习并得到一个知识框架或者说是分类器,利用此知识框架对未知的文本数据进行预测并得到其归属类别进而完成了文本分类。最早的文本分类算法是 H.P.Luhn[1]根据有关类别词汇分别出现在某个文档中的概率大小来确定此文档的类别,由于此方法过于简单和机械,因此分类效果不是很好。九十年代以后,基于机器学习理论的文本分类算法在分类准确率和速度上都得到了较大的提高,特别是支持向量机算法的出现,给分类的精确度带到了一个崭新的高度,在机器学习算法中统领了很长一段时间直到近几年深度学习的出现才将这个格局打破了,下面对于非对称问题和多标签问题给出了国内外研究现状的相关介绍。

1.2.1 非对称技术相关研究介绍
尽管现在的分类算法在文本分类领域已经取得了不错的成果,有些分类器的分类精度已经高达 90%以上,但是由于基于统计的机器学习方法需要大量有标记的数据集进行训练,而在现实应用中必然会遇到标注瓶颈问题进而导致某些类别只拥有少量的样本,这样会造成样本分布倾斜,即所说的数据不均衡问题。传统的机器学习算法都是假设样本分布是均衡的,因此在面对不均衡数据集时,分类器的分类性能也会表现不佳,尤其在预测少数类样本时由于受到样本倾斜的影响,预测准确率会很低。

数据的不均衡问题是在 2003 年的 ICML 会议和 2000 年的 AAAI 会议两个会议上被提出来的 [2],Maloof 等人[3]认为大多数文本分类问题中存在的主要问题是数据不均衡问题。现实中的许多案例都存在数据集不对称问题,比如在医疗诊断上,患病的人和正常的人存在不均衡问题,正确诊断出患病者是非常重要的,而如果把患病者预测为正常人,后果是不堪设想的,又如网络异常行为检测同样存在着数据不均衡的问题。

...........................

第二章 相关概念及技术介绍

2.1文本分类的定义和过程
2.1.1文本分类过程
文本分类过程一般分为三个步骤:数据集的构建、训练过程和分类过程。数据集的构建一般是需要人工进行参与的,分类是属于有监督学习的范畴,需要在包含大量文本的数据集进行人工标注,在标注好后,可以将数据集分为训练集和测试集。在进行训练前需要给上述标注好的文本数据进行预处理,预处理过程主要有分词,去停用词,特征选择和权重计算。
分词一般是基于中文数据集上来说的,由于英文文档中的单词一般是以空格连接的,而英语的基本组成单位是单词,这样以空格和标点符号来分割英文文档就可以了。而中文就不一样了,词是承载语义最小的单位,连续的的字符序列构成了中文类型的文档,而中文文档中的词与词之间是没有明显的分隔符,因此需要进行分词。停用词一般指一些使用频率过高的词,而这些词不仅对分类没有作用,而且还占用很多资源,因此需要将其忽略掉。特征选择也是文本分类过程中的一个重要步骤,由于在分词和去停用词过后,特征项集合仍然会是一个高维的且包含过多无用的特征,而特征选择是使用某个特征选择算法从特征项集合中选择出对分类有影响的一些特征,在减少占用资源的同时提高了分类性能。权重计算是计算特征项的权重,表示某个特征在文本中的重要程度,得到每个特征项权重后,就可以将文本表示成计算机所能理解的向量。

训练过程指的是使用分类算法在训练集的文本向量上不断地学习,最终会得到一个分类函数,即所谓的分类器。当然在训练过程中也需要不断地对分类器进行分类性能的测试,即使有时分类函数在训练集上拟合的很好,但是由于可能产生过拟合而导致在验证集上的分类效果并不是很好,一般会将验证集上表现好的模型作为最终的分类器。分类过程指的是使用训练过后得到的分类器在待分类文本上进行类别的预测,使用常用的评价指标对分类器的分类性能进行评估。文本分类的训练和分类过程如图 2.1:

.............................

2.2 向量空间模型
在使用计算机构建分类模型时,由于计算机是采用二进制数据作为直接处理对象的。而中文文本或者英文文本一般都是无结构化的数据,因此需要利用某些模型把它转化为计算机可理解的形式,比如说向量。在给文本进行分类时,都会选择文本中的某些词作为区分文本的特征,一般文本的类别都是与这些词存在紧密联系的,可以用这些词来代表整个文本。常用的表示文本的模型有两种:向量空间模型(Vector Space Model,VSM)和布尔模型(Boolean Model,BM),两者都是基于词袋模型,采用空间上的相似度来表达语的相似度,具有较强的操作性和计算性,而后者只是向量空间模型的一种简单形式。VSM 是由 Salton提出的,该模型认为一个文档只是由多个词汇构成的集合,词与词之间不存在任何的联系,认为每个词汇之间都是相互独立的,一个词语的出现不会影响任何一个词汇,因此向量空间模型也忽略了特征项之间的顺序以及它们在文本中出现的位置。在VSM 模型中,特征项集中包含了被称为特征的多个词汇,一个文档的表示定义如下:
假设某个文档 d,m 个特征(t1,t2,…,ti,…,tm)组成了一个特征集,二元组组成的向量((t1,w1),(t2,w2),…,(ti,wi),…,(tm,wm))可以用来表示文档 d,向量中的二元组构成元素分别是特征集中的某个特征和这个特征在文档中的权重。通常用所有特征的特征权重值所构成的一个 m 维向量(w1,w2,…,wi,…,wm)来表示文档 d。在布尔模型中,文档只是由元素只为 0 或 1 的向量表示的,当向量某个位置出现 1,则表示这个位置的特征出现在文档中,若出现 0 代表文档中不含有这个特征。这种简单的向量空间是无法描述特征项在文档中的重要程度,因此通常情况下会导致后期的分类效果并不是很好。

...............................


第三章 不均衡数据处理方法研究 .....................................15
3.1数据不均衡问题描述 ...............................................15
3.2数据不均衡问题的相关方法 .............................15
第四章 多标签文本分类算法研究 ...................................20
4.1多标签分类问题的简介 ....................................20
4.1.1 多标签分类问题的定义 .........................20
4.1.2 多标签文本分类评估方法 .................................22
第五章 实验及结果分析 ...............................33
5.1基于 k-means 算法改进的下采样算法实验 ................................33
5.1.1 实验语料集 ..................................33
5.1.2 实验性能评估 ............................. 40

第五章 实验及结果分析

5.1基于 k-means 算法改进的下采样算法实验
本小节进行的对比实验是验证 3.3 小节提出的算法 PKM-undersampling 算法的有效性,主要在 3 个中文情感语料集上进行实验的,主要与经典的上采样算法 SMOTE 算法、随机下采样算法以及不经上采样直接进行使用分类算法进行模型训练这几种情况进行对比,使用的分类算法都是支持向量机算法,当然为了验证该机的 k-means 算法的有效性,本文也将直接使用原始 k-means 算法进行下采样这种方法作为对比验证,实验结果验证了算法是可行的,与其他算法相比,本文提出的 PKM-undersampling 算法在一定程度上的分类性能要好于其他算法。

5.1.1实验语料集
本小结进行了两组对比实验,第一组实验所采用的数据集是 3 个中文情感语料,只包含两 个 标 签 类 别 , 分 别 是 京 东 的 Jingdong_NB_4000 , 当 当 的 Dangdang_Book_4000 和ChnSentiCorp_htl_ba_4000,里面分别含有正、负类语篇各 2000 篇。其中京东的语料内容是客户对自己在京东上所买的电脑进行的评论,而当当的语料是书友对其购买的书进行的评论,最后一个语料所涉及的领域是酒店、电脑与书籍,三个数据集的信息描述如表 5.1,第二组实验采用的数据集是复旦大学采用的中文文本分类数据集,只取了其中的 4 个类别的数据,分别是历史、航空、经济和体育 4 个类别,具体描述见表 5.2。对于第一组上的实验语料中的负类作为多数类,正类作为少数类,先在正类和负类中的 2000 条评论中随机地各取 200 条作为测试集,然后将负类中剩下的 1800 条评论作为训练集的负类(多数类)样本集,由于原始的数据集是有两个类别且包含的样例数量是相等的,因此实验中设置正、负类的不平衡比例为 k,然后在正类中随机地选取 1800/k 条评论作为训练集中的正类(少数类)样本集,接着使用 SVM分类算法在数据集进行学习得到分类模型,最后在测试集上进行测试,每次实验要重复 5 次,计算出平均值作为最终的实验结果,k 分别取 10,8,6,4。第二组实验中的语料集设置成了一个非对称的数据集,多数类中含有 1200 条数据,少数类中含有 200 条数据,同理使用 SVM分类算法在数据集进行学习得到分类模型,最后在测试集上进行测试。

.............................


第六章 总结与展望

6.1工作总结

在过去的几十年里,分类技术得到了极大的发展,而且分类技术应用范围非常广泛,已经渗透到文本、图像、语音以及生物医学等,但是往往一门技术的在快速发展的过程中也会面临着这样那样问题。而本文就主要描述了分类过程中遇到的两个问题并且在两个问题上展开了研究,本文提出的两个问题主要是分类中的数据不均衡问题和多标签问题,不管对于什么领域的分类,一般都会面临着数据不均衡问题的挑战,由于传统的分类算法都是基于各类数据之间的样本数量是相当的原则来进行设计的,这些分类算法在均衡的数据集上学习得到的分类器的分类性能都是比较好,但是当遇到数据不均衡的时候,这些分类算法会表现出和先前截然不同的状态,一般分类性能都会急剧下降。造成数据不均衡问题的原因也有很多,比如某些类的数据的获取很难,也有可能数据在标注过程中会出现标注瓶颈而导致数据不均衡等原因,因此当问题出现时,就需要一个合理的方法来解决这个问题,而大量的研究人员就会绞尽脑汁的想办法,可能会想出不同类型的方法,传统的对于数据不均衡的解决途径主要有 3 种,数据层的重采样方法、对某些算法进行改进或优化以及对某些特征选择算法进行改进或者提出新的特征选择算法,这些方法在不均衡数据问题取得了不错的成效。而对于多标签问题在文本分类中也是比较常见的,且各个领域的分类都可能出现,对于传统的单标签分类,一般分为二分类和多分类,就是在描述一条数据对象时,只用单一的标签来作为这条数据的类别,这个标签是来自于标签集合中的某一个标签,因此在使用分类算法进行模型的学习过后,对一个未知样本的预测标签也只能有 1 个。而在如今的大数据时代,现实应用中的数据往往都比较复杂,一个数据对象可能与多个类别标签相关,而使用传统的单标签分类已经不能贴切且准确地描述某个数据对象,因此一条数据应该对应着一个标签集合,而不是单一的某个标签。对于多标签问题的解决途径主要有两种,分别是基于问题转换的策略和基于算法适应的策略,前一种方法一般都是比较简单易实现的,主要是将一个多标签分类问题转化单标签分类中的二分类或者多分类问题,后一种方法主要在一些原有的单标签分类算法上进行改进或者提出新的多标签分类算法。这两种方法对于多标签分类问题都是非常有效的,但是某些算法可能有很高的算法复杂度或者分类性能一般,因此多标签分类问题在机器学习领域中吸引了大量的国内外学者的研究。
参考文献(略)

如果您有论文相关需求,可以通过下面的方式联系我们
客服微信:371975100
QQ 909091757 微信 371975100