第1章绪论
诊断病例是一个主观判断历程,其次诊断时容易遗漏某些细微改变,如乳腺内的细微妈化等。可见放射科医生在病例诊断过程中漏诊、误诊的情况是不可避免的。研究表明⑴两位放射科医师对同一病例进行诊断可以提高准确率。为缓解医师的工作强度以及提高临床诊断的准确性,特别是降低误诊的概率,计算机辅助诊断开始被广泛应用。然后由计算机作出智能诊断。然而当时的模拟图像信息必需转换成为数字图像信息才能进入计算机系统,这种转换也会使图像质量下降而影响诊断结果。近十年来,数据挖掘与机器学习在医学辅助诊断、模式识别、欺诈检测等诸多领域得到了广泛应用与研究。数据挖掘与机器学习能有效分析原始数据,提取数据背后的隐含模式、发掘新知识并做出正确判断。与人类从过往经验中学习知识并利用其解决未来问题类似,数据挖掘从已知的经验数据中发现知识,并利用学习所得知识对未知数据进行判断。通常数据挖掘中所涉及的数据信息是以属性值表示。
...........
第2章相关研究现状
2.1非平衡数据集
数据所包含的样本数显著少于其它祥本数时,我们称之为非平衡数据集。进一步发现样本数少的类别往往是学习任务中用户最感兴趣的类别。许多实际的分类应用中都会出现非平衡样本集例如污染检测,风险管理、欺诈侦察以及医学辅助诊断,非平衡数据集的分类问题引起学者们广泛的研究兴趣。在非平衡环境下,会有更多稀有类样本被错分为大类,造成稀有类样本的识别率显著降低。非平衡的数据分布自身似乎不会影响学习过程,而以下与非平衡数据相关的困难阻碍了正常的学习过程。
2.2非平衡学习性能评价
评价准则是分类器性能评测,特别是稀有类样本经常被严重忽视,需要合适的评测方法对非平衡学习性能进行评测。分类准确率,公式是普遍采用的分类器性能评价工具。然而在非平衡学习框架下,分类器的整体准确率没有区别不同类别,使用该标准会对非平衡学习性能有错误的评价。例如:对于一个非平衡匕例为9的样本集来说,一个分类器如果将所有样本都判别为阴性,也可以取得90%的分类准确率。该分类器有不错的性能表现,而事实上该分类器却没有丝毫的使用价值。从以上定义可以清楚地知道,除了准确率以外其它的评价尺度主要是考虑分类器对某一类样本的分类性能,而没有将其它类考虑在内。然而对于非平衡学习来说,必须提出新的评价尺度,同时兼顾分类器对两个类别分类性能的评价,特别是对阳性样本的分类评价。
第3章基于几何、概率、语义的混合样本标记技术........32
3.1研究背景...........33
3.2混合类别标记技术.....37
第4章基于凸壳的欠采样技术.........53
4.1凸壳的基本概念.......54
4.2实验结果与分析.........63
第5章基于反向最近邻的欠釆样方法.........70
5.1影响集合......70
5.2反向最近邻的基本概念.........72
5.3反向最近邻的数学表达........74
第5章基于反向最近邻的欠釆样方法
5.1影响集合
寻找影响集的首要问题是在什么区域寻找,最直接的两个方法是:寻找最邻近的点、以查询点为中心的某个半径范围内查询。两个基本算法中都需要对参数进行合理选择(或才能得到理想的查询结果。如果对查询点q附近区域分布密度的先验知识有所了解,是无法准确地选择算法参数。目前所有的研究都是基于欧式对象,这些对象在多维空间中表示成点,查询能釆用多种几何工具有效地修剪査询空间来加速査询过程。然而这些特点仅限于欧式空间,面对不符合欧式模型的复杂数据只能放弃适用欧式空间的工具。这些问题也是目前妨碍釆用查询来分析此类数据的原因。商业位置规划是一个有代表性的非欧式模型应用:评价在一选定地点开设超市的影响,需要研究距离最近的超市为本超市的居民人群。顾客到超市的距离并不是顾客与超市之间的欧式距离,而是连接两地的最短路程,需要考虑交通网络布局。
5.2反向最近邻的基本概念
然而最近邻的查询方法只能刻画查询点局部的分布特征,无法刻画样本集的整体分布。通过最近邻的查询的方法来对样本进行冗余性判断易于导致欠采样过程中有效类别信息的丢失,从而降低学习机性能。本章针对最近邻方法在刻画样本集整体分布时存在的弊端,提出了基于反向最近邻的欠采样新方法。反向最近邻相比于最近邻能更好地表征数据集中样本之间的相互关系,更真实地刻画样本集的整体分布结构。该算法采用反向最近邻査询具有类别代表性且可靠的大类样本、去除大类样本集中的冗佘与噪声样本,在平衡训练样本集同时尽量避免类别信息丢失。
..........
第6章总结与展望
本论文探讨了CAD应用中的小样本、非平衡学习技术,旨在解决小样本及非平衡数据集对学习性能造成不霞影响的问题,提高CAD系统中学习机的分类性能,为放射科医生提供有价值的“第二参考意见”。基于上述研究目的,本论文就解决CAD应用中数据集的非平衡与小样本问题,分别提出新的欠采样与半监督学习技术。本论文研究重点与创新点如下:
CAD应用中的阳性病例通常显著少于阴性病例,由此引起的非平衡训练样本集是阻碍学习机性能的重要因素。本论文基于重采样的样本平衡方法,提出了两种欠采样新算法。样本集的凸壳是包含数据集合中所有样本的最小凸集。本论文受凸壳几何特性启发,提出基于凸壳结构的欠采样新算法,以简约凸壳顶点取代大类样本,以此平衡训练样本。进而考虑到实际应用中两类样本往往发生重叠,对应凸壳也将发生重叠。此时采用凸壳来表征大类的边界结构容易引起过学习及学习机泛化能力下降。
............
参考文献(略)