基于增量学习的三支决策属性约简探讨

论文价格:0元/篇 论文用途:仅供参考 编辑:论文网 点击次数:0
论文字数:**** 论文编号:lw202329756 日期:2023-07-22 来源:论文网
本文是一篇软件工程硕士论文,本文以概率粗糙集动态三支决策为计算模型,以动态信息系统的单对象增量变化数据形式为研究对象,提出了三种基于相对依赖度的特定类三支概率增量约简算法,实现了增量情况下特定类中的正域、边界域及负域的三支概率属性约简。

第 1 章 引言

1.1 研究背景
目前,人类正处于一个科技不断革新,信息交互频繁的社会。特别是移动互联网和物联网技术正处于飞速发展的阶段,其广泛应用于通信、金融、医疗等领域,并产生了海量的数据[1]。但数据的体量并不等同于信息价值量的多少,在没有对这些信息数据进行有效处理之前,很难获取隐藏的数据价值。况且,海量数据本身的内在联系就存在很强的不确定性和模糊性。因此,许多研究者将其研究重点放在对数据的有效信息提取和分析处理上。
三支决策是一种基于粗糙集的决策工具,能够有效地处理不确定和不精确的信息[2-7]。由波兰科学家Z.Pawlak创立的经典的粗糙集理论的思想就是通过定义上、下近似来对一个目标概念中的对象进行描述并将整体论域划分为正域、负域和边界域这三个互不相交的部分 [8-11]。由于实际生活中获取的数据大部分是不精确、不可靠的,然而粗糙集对上、下近似的定义有着严格的数据要求。这就限制了它在实际生活中的应用。所以为了对这类数据进行分析处理,加拿大里贾纳大学姚一豫教授等人在上世纪九十年代初提出了决策粗糙集理论[12]。决策粗糙集以风险决策分类问题为背景,引入决策概念,通过最小贝叶斯决策理论计算决策阈值。合理的决策阈值对决策过程中的风险是非常重要的[13-15]。在决策粗糙集理论的基础上,姚一豫教授提出了三支决策理论,将决策阈值作为把对象划分到正域、负域和边界区域的依据,最终形成正域决策、负域决策和边界域决策。三支决策广泛应用于垃圾邮件过滤[16]、恶意软件分析[17]、人脸识别[18]、推荐系统[19]和属性约简[20]等领域。
属性约简是基于粗糙集理论的知识获取研究中的重要组成部分。属性约简的结果将直接影响最终形成的规则,很多学者已经对属性约简算法做了大量的研究[21],然而,这些研究大多针对静态数据,在实际应用中,数据总是进行动态变化的,因此很多学者提出数据库知识发现算法相应得也应该是增量式的,许多学者开始研究增量规则获取算法和增量属性约简算法。
...........................

1.2 国内外研究现状
1.2.1 属性约简理论研
属性约简是粗糙集[24,25]领域中的一个重要研究内容,在数据降维[26]、知识发现[27]等领域起着关键作用。属性约简[28]就是在保持知识库分类能力不变的条件下,删除其中不相关或者不重要的属性。近年来,随着约简准则的研究和粗糙集模型的改进,属性约简广泛运用许多不同的领域。
基于粗糙集的属性约简算法主要分为两类:一类是基于属性重要度的启发式约简算法,主要有基于正域的属性约简算法[29,30],基于信息熵的属性约简算法[31-33]等,在大多数情况下,这类算法可以得到一个属性约简,有效降低算法的时间复杂度,但得到的属性约简可能不是最小属性约简;另一类是基于区分样本的结构化属性约简算法[34]。这类算法主要是基于辨识矩阵的属性约简算法[35-38],在数学理论的支持下,该类算法可以求得所有的约简集,但在计算过程中会出现“组合爆炸”的情况,影响算法的效率。
1.2.2 三支决策属性约简的研究
在粒计算粗糙集研究的基础上,国际著名粒计算专家姚一豫教授在 2009 年首次提出三支决策理论[39]。这是一种不确定问题的求解理论,三支决策理论就是在原有接受决策、拒绝决策的的基础上新增了一个延迟决策,其广泛应用于投资管理[40]、聚类分析[41,42]及属性约简[43]等实际领域中。其中基于粗糙集理论的属性约简研究在近年来得到了学者的广泛关注,也有一些学者尝试将三支决策理论引入到属性约简研究中来。然而,在经典粗糙集模型的属性约简中,不确定性度量的单调性在三支决策的属性约简中不再适用,因此研究者们继而提出三支属性约简,主要分为两类:一类是三支宏观属性约简。该类适用于关联决策系统中的决策类,即获取所有决策类的三支属性约简结果。Chen 等人[44]在邻域决策系统构建了基于条件熵的三支决策属性约简算法; Li 等人[45]提出了邻域决策粗糙集的正域相关概念并构造了一个基于最小代价的属性约简;另一类是三支微观属性约简[46]。微观属性约简适用于独立决策系统中的决策类,也就是说,单个决策类(简称特定类)进行三支特定类属性约简能够得到不相同的约简子集。
.........................

第 2 章 相关理论及其概念

2.1 粗糙集理论
粗糙集模型主要用来处理不确定性的决策信息系统,主要思想是通过等价类的计算得到上下近似集,进而对信息系统的不确定性知识进行逼近。基本理论如下。
定义 2.1(决策表)决策表是决策信息系统的基本单位,也是粗糙集的基本研究对象,一个决策信息系统作如下定义: IS =(U, A,V, f) .
其中,1 2{ , , , }nU =x x x 为非空的有限数据集合,表示论域;ix 为论域中的对象; A 表示条件属性C 与决策属性 D 的并集即 A=C D 且有C D =;V 表示值域; f 表示特定对象与值域中取值的映射关系。
如图 2.1 即为经典粗糙集图示,其中深色阴影区域表示集合 X 的下近似,即图例中的正域;集合 X 的上近似则由深色和浅色区域来表示。

.
软件工程硕士论文怎么写

........................

2.2 三支决策基本理论
三支决策(Three-way Decision)是一种基于符合人类认知的决策模式。它认为:在实际的决策过程中,人们对自己完全掌握的接受或拒绝的事物,可以立即做出快速的判断;对不能立即做出决定的事物,人们往往会延迟对事件的判断,即延迟决策。在粒计算粗糙集研究的基础上,国际著名粒计算专家姚一豫教授在 2009年首次提出三支决策理论。
经典的属性约简算法在求解属性核的过程中每次都需要求解所有条件属性的等价类,在信息系统数据动态变化的过程中,若每次计算核属性都要对所有条件类进行重复计算,无疑会增加计算的成本,本文所提出的增量属性约简算法可以在求动态信息系统等价类的过程中只局部计算新增的数据,避免重复学习历史数据知识,提高核属性的求解效率,进而提高动态决策环境下属性约简的效率。
属性约简是基于粗糙集理论的知识获取研究中的重要组成部分。属性约简的结果将直接影响最终形成的规则,很多学者已经对属性约简算法做了大量的研究,然而,这些研究大多针对静态数据,在实际应用中,数据总是进行动态变化的,因此很多学者提出数据库知识发现算法相应得也应该是是增量式的,许多学者开始研究增量规则获取算法和增量属性约简算法。目前,增量属性约简算法大致可分为两类:一类是获取一个属性约简的增量式算法;另一种是获取属性约简簇集的增量式算法。然而现有的三支决策属性约简算法大多面向所有决策类,但在许多情况下,全部决策类下的约简子集不是完全等价于单个决策类下的约简子集,由于约简成本等因素的限制,有时只需要考虑单个决策类的属性约简结果。
...........................

第 3 章 单对象增量情况下特定类属性约简算法 ........... 11
3.1 引言 ...................................... 11
3.2 基于概率粗糙集的单对象增量式三支决策算法 ......................... 11
第 4 章 批量对象增量情况下特定类属性约简算法 ............................. 29
4.1 引言 .................................. 29
4.2 基于概率粗糙集的批量对象增量式三支决策算法 ...........................30
第 5 章 实验及数据分析 ........................ 53
5.1 引言 ............................... 53
5.2 实验数据集 ........................ 53

第 5 章 实验及数据分析

5.1 引言
上述研究提出了基于相对依赖度和信息熵的特定类三支概率增量约简算法,并验证了其有效性和可解释性。在动态信息系统下,在理论上证明了其相较于面向特定类的三支概率属性约简算法的优越性。因为该算法不需要重复计算全部数据,而只是需要局部计算新增数据,相较于面向特定类的三支概率属性约简算法,可以更加快速得求出其核属性,所以该算法在面向动态数据时有更小的时间复杂度。在本章节中,我们将进行一系列的实验来验证所提算法的增量属性约简性能。本实验将在 6 个典型数据集下进行实验,以基于信息熵的特定类正域增量约简算法(记为 SCIARIE)为例,实验主要分为两部分:第 1 部分是将所提出的与基于信息熵的特定类非增量式属性约简算法(记为 SCARIE)在 6 个不同数据集上分别做动态属性约简实验并进行时间消耗的比较;第 2 部分是将所提出基于信息熵的特定类正域增量约简算法与 3 个不同增量属性约简算法在 6 个不同数据集上分别做动态属性约简实验并进行约简效果和分类性能的对比。

实验采用 UCI(http://archive.ics.uci.edu/ml/datasets)机器学习标准数据集库中的 6 个经典数据集进行实验。对于存在连续型数据的数据集,本小节实验将其统一转换为等价的离散型数据。对于数据集中缺失的数据利用数据均值处理的方法填充。数据集描述如表 5.1 所示:

软件工程硕士论文参考

.........................

第 6 章 总结与展望


6.1 工作总结
在前期研究过程中我们发现,在动态信息系统下,基于三支决策动态属性约简的研究工作尚未完全展开,针对数据样本持续增加的动态信息系统,进行三支决策的特定类属性约简研究,是本文的研究重点。因此,本文基于概率粗糙集的动态三支决策方法,在动态信息系统的背景下,提出了对象增量情况下特定类属性约简算法,主要工作及内容如下: 首先在动态信息系统的研究背景下,以概率粗糙集动态三支决策为计算模型,以动态信息系统的单对象增量变化数据形式为研究对象,提出了三种基于相对依赖度的特定类三支概率增量约简算法,实现了增量情况下特定类中的正域、边界域及负域的三支概率属性约简。相较于经典的特定类的三支属性约简算法,在动态数据环境下,该算法有更低的时间复杂度和时间频度。最后通过实例分析,验证了该算法的可解释性和有效性。
上述内容研究的是单对象增量的动态数据问题。然而,在现实生活中,数据的采集和处理总是以批量的形式进行的,对于单对象的增量约简算法并不容易推广到实际生活应用中去。因此我们在此基础上做了一定改进,在动态信息系统的研究背景下,以概率粗糙集动态三支决策为计算模型,以动态信息系统的批量对象增量变化数据形式为研究对象,提出了三种基于信息熵特定类的三支概率增量约简算法,实现了增量情况下特定类下的正域、边界域及负域的三支概率属性约简。由于该算法在求动态信息系统等价类的过程中只对当前的增加的数据进行局部的计算,可以避免重复学习历史数据,从而提高约简的效率。相较于经典的特定类的三支属性约简算法,该算法在动态数据下有更低的时间复杂度和时间频度。最后通过实例分析,验证了算法的可解释性和有效性。
参考文献(略)

如果您有论文相关需求,可以通过下面的方式联系我们
客服微信:371975100
QQ 909091757 微信 371975100