第一章 基于变精度邻域粗糙集的的多标记子空间研究
1.1多标记变精度邻域粗糙集
多标记下的变精度邻域粗糙集与单标记下的变精度邻域粗糙集的不同之处在于其决策的形式。在单标记学习中,可以通过单决策对样本集形成一种划分,而多标记则有所不同。在多标记学习中,集合中的每个样本都具有多个决策,则通过多个决策对样本集形成一种覆盖。对于集合中的某个样本而言,多标记学习框架下的邻域与单标记学习框架下的邻域是相同的,不同之处主要体现在邻域与决策的联系中,即不同的下近似的定义方式。
在多标记学习中,如何定义决策关于属性的下近似主要取决于如何处理两个在属性空间相似的样本在标记空间的一致性问题。目前针对多标记学习的问题主要有两个角度,一种角度是算法转换方法,即将多标记学习转换为传统的单标记学习问题。另一种角度是算法适应方法,即直接构建新的适用于多标记学习的方法。若将多标记学习转换为多个二类分类学习问题,则会导致标记之间的相关性被忽略。为了引入标记之间的相关性信息,可在多标记学习框架下构造变精度邻域粗糙集模型。
..........................
1.2多标记空间的属性约简
属性约简是粗糙集理论中的一个重要应用,可揭示属性间的潜在关系,重要的属性在实际应用中应具有重要的价值。在粗糙集的属性约简中,最终的目的是找到一个最少属性个数的、与全部属性组成的集合相比具有相同的区分能力的属性子集,而区分能力则是以下近似集合来衡量的。下近似随着属性的增加而表现出的单调性可作为属性约简算法的基础。由下近似集合则可得出依赖度,进而得出属性重要度,最后可引出属性约简算法。在属性约简的过程中,根据属性重要度对每一个属性进行评价。若某属性的属性重要度为0,则删除该属性,最终保留属性重要度不为0的所有属性作为属性约简的结果。以下将给出该算法的具体过程。
............................
第二章 基于聚类的的多标记选择性集成研究
2.1参量分析
本章借鉴K-means聚类算法,将学习器看做样本,提出了两种多标记选择性集成算法,并对多个数据集下的实验结果进行了详细地分析。最后对集成与选择性集成的实验结果进行了详细地分析。
MDCCS算法可通过计算总最小距离得到最佳簇数。 其中,MDCCS算法下的簇中心只能在已有基学习器集合中产生。KMCCS算法基于K-means对所有基学习器进行聚类,最终可得簇划分结果。其中,KMCCS算法下的簇中心可以依据已有基学习器的组合产生新的簇中心,但新的簇中心最终并不参与集成。
K-means聚类算法中,距离的计算方式以及聚类簇数的变化都会对最终结果产生影响。由于在多标记下的五种指标中只有平均精度与其他四种指标变化趋势相反,
本章所用数据集在第二章已经被详细介绍。以下将分析emotions,birds数据集在MDCCS算法下的表现。
如图3.2所示,四种距离度量下的平均精度的变化趋势与排序损失的变化趋势均是相反的;余弦距离与杰卡德距离的平均精度在簇数??取[5, 10]内的值时波动较大,欧氏距离与汉明距离的平均精度在簇数??取[5, 25]内的值时波动较大。欧氏距离下的平均精度在[5, 10]、[10, 15]、[20, 25]均有较高值,余弦距离下的平均精度在[5, 10]、[30, 35]均有较高值,汉明距离下的平均精度在[5, 10]、[20, 25]、[30, 35]均有较高值,杰卡德距离下的平均精度仅在簇数??取6时达到较高值。
......................
2.2选择性集成算法对比分析
本节将从各个角度详细地分析并对比基于聚类的选择性集成算法MDCCS、KMCCS与基于排序的选择性集成算法APSLS各自的优势与不足。
以下将分析MDCCS算法、KMCCS算法、APSLS算法在不同数据集下的表现,实验结果见表4.6-4.10。
在emotions数据集中,APSLS算法的平均精度最高,最高标记错误率最低,排序损失最低;MDCCS算法的汉明损失最低;KMCCS算法的覆盖率最低。APSLS算法的平均精度虽高于集成前最高平均精度,但达到最高精度时对应的参与集成的学习器较少。
在birds数据集中,APSLS算法的覆盖率最低,排序损失最低;KMCCS算法的平均精度最高,覆盖率最低,汉明损失最低,最高标记错误率最低。三种算法的平均精度算法的平均精度均高于集成前最高精度最高平均精度,APSLS算法达到最高精度时对应的参与集成的学习器也较多。
在yeast数据集中,APSLS算法的汉明损失最低;KMCCS算法的平均精度最高,覆盖率最低,最高标记错误率最低,排序损失最低。KMCCS算法的平均精算法的平均精度高于集成前最高精度最高平均精度,APSLS算法的平均精算法的平均精度与集成前最高精度最高平均精度相同,APSLS算法达到最高精度时对应的参与集成的学习器较少。
在scene数据集中,APSLS算法的平均精度最高,汉明损失最低,最高标记错误率最低;KMCCS算法的覆盖率最低,排序损失最低。三种算法的平均精算法的平均精度均高于集成前最高精度最高平均精度,APSLS算法达到最高精度时对应的参与集成的学习器较少。
.......................
3.1 基于最小距离的簇中心选择算法................... 20
3.2 基于K-means的簇中心选择算法 .................. 21
3.3 参量分析....................21
第四章 基于排序的的多标记选择性集成研究........................29
4.1 基于排序的学习器选择算法 ............................. 29
4.2 参量分析 ........................ 29
第五章 结论 .......................·37
第四章 基于排序的的多标记选择性集成研究
4.1 基于排序的学习器选择算法
下面以平均精度为例给出一种基于排序的学习器选择算法。事实上,除了平均精度这一评价指标,覆盖率、汉明损失、最高标记错误率、排序损失也可以作为该算法的排序准则。
算法4.1为基于平均精度排序的学习器选择算法的具体过程。若选择多标记学习框架下的其他指标,随着指标值的降低对应学习器的性能变强,则需修改排序方式为升序。另外,基于覆盖率排序的学习器选择算法命名为CVSLS,基于汉明损失排序的学习器选择算法命名为HLSLS,基于最高标记错误率排序的学习器选择算法命名为OESLS,基于排序损失排序的学习器选择算法命名为RLSLS。
..........................
第五章 结论
本文将变精度邻域粗糙集模型应用于多标记学习中,提出了一种有效的属性约简算法,并对相应属性子空间进行了详细地探究与分析。分析结果表明邻域半径对于属性约简的影响大于精度对属性约简的影响,但二者在某段区间内可同时影响属性约简的结果。另外,通过对不同的属性子空间构造的学习器进行集成获得了更强的泛化性能。
本文进一步将聚类与排序应用于选择性集成中,提出了三种有效的选择性集成算法,并对相应的实验结果进行了详细地探究与分析。基于聚类的选择性集成算法的实验结果表明簇数??对于算法的影响大于距离计算方式对于算法的影响,但不同的距离计算方式得到的实验结果并不相同。另外,由于KMCCS算法在scene数据集下的计算过程中产生了空簇,给出了两种解决方法来避免因空簇而导致的算法提前停止问题。基于排序的选择性集成算法的实验结果表明该算法是有效的,大部分数据集均在截取比例较小时达到了最优值。
本文虽在集成的基础下通过选择性集成进一步提高了学习器的性能,但在部分数据集下的性能还有待提高。未来的工作可由以下两方面展开:
(1)可考虑选择其他选择性集成算法,例如基于优化的选择性集成算法,其他基于聚类的选择性集成算法,或者给出更能体现学习器间差异的排序指标。
(2)如何体现标记间相关性是多标记学习中的重点研究问题。 可考虑构造体现标记间相关性的其他模型,基于其他模型的属性约简算法也可得到不同的属性子空间,进而可构造不同的学习器。
参考文献(略)