第一章 绪论
1.1 研究背景和意义
1.1.1 研究背景
遗传疾病是指由于遗传物质发生改变而引发的疾病,目前遗传疾病主要分为复杂疾病和单基因疾病两种,复杂疾病主要包括精神分裂症和哮喘病等,主要是因为基因中的多个单核胆酸多态性之间的相互作用而形成的,而单基因疾病则是遵循孟德尔遗传定律。近年来,随着 DNA 微阵列技术的不断进步,作为检测人类常见疾病的遗传变异的工具,基因组范围的关联研究受到了很大的关注,使得精神分裂症的研究取得了良好的进展。精神分裂症(Schizophrenia)是一种遗传性、多基因相关的疾病,影响了全世界 1%的人口。精神分裂症是最严重的精神疾病之一,主要特征为思维过程障碍以及情绪反应迟钝。患者的精神活动与环境不协调,最常见的表现为幻听、妄想、胡言乱语等,从而造成个性、思维、行为以及情感等方面的分裂[1]。
单核苷酸多态性(Single Nucleotide Polymorphism,SNP)是指基因组水平上由于单核苷酸变异所引起的序列多态性。SNP 具有数量多、分布范围广和稳定度高等特点,平均每 1500 个碱基对中就会有一个 SNP[2],目前已发现的 SNP 总数已达到 400 多万个,因此 SNP 常被用于复杂性状的疾病、群体的基因识别和遗传解剖等方面的研究,已经成为第三代遗传标记。对 SNP 的广泛研究,使得像类风湿关节病和精神分裂症等疾病的研究取得了良好的进展[3]。然而,大量研究发现两个无关个体的 99.9%的基因组序列是相似的[4][5],而剩余的 0.1%的差异是导致人体产生疾病的关键所在,因此对冗余的 SNP 进行筛选,即从大量的 SNP中选择具有代表性的信息 SNP 成为一个重要的课题。特征 SNP 子集选择问题在某种程度上可以看作是机器学习中特征选择方法的子问题。由于 SNP 之间存在连锁不平衡性,如果完全按照现在机器学习算法中的特征选择方法来解决问题将会面临很多困难。传统特征选择方法从大量的 SNP 特征中选择出具有代表性的SNP 特征子集,即信息 SNP 子集时,总会遗漏掉许多 SNP 之间的内在遗传信息。
...........................
1.2 国内外研究现状
1.2.1 SNP 选择算法研究现状
目前,国内外的相关研究主要是通过生物实验的方法从样本中获取 SNP 的原始数据,如果单纯采用生物学的方法进行基因分型,将会面临消耗时间长,代价昂贵以及难以满足生物分析数据的要求[10][11]。当前的 SNP 选择方法有很多,比较成熟的有两类:基于单体型块的方法和基于单体型重构的信息 SNP 方法。
(1)基于单体型块的方法
考虑到理论数量远大于人类单体型数量的基本事实,通过设定一个评价指标来衡量每个 SNP,将基因组序列数据分成多个离散的单元型块,然后根据相应的规则在每个块中选择相应的信息 SNP。Patil 首先提出了使用贪心算法来划分奇异块的想法[12]。Chang 等人提出了混合贪婪-划分树的方法,该方法引入了分支算法定界的思想,一个原始信息 SNP 选择问题被划分为多个独立的子问题,最后构建出贪婪划分树[13]。Liao 提出一种多次蚁群算法选择 SNP 集合,通过计算复杂度和噪声影响同时提高划分准确率,试验结果表明该方法有一定改进[14]。Prathibh 提出了一种基于遗传算法的特征选择算法,该算法减少了特征数量,提高了基因/ SNP 组的特异性[15]。Deng 等人为了克服遗传算法(GA)弱局部搜索能力的缺陷和蚁群优化(ACO)算法在解决复杂优化问题中的缓慢全局收敛速度,提出一种遗传和蚁群自适应协同优化(MGACACO)算法来解决复杂的优化问题。提出的 MGACACO 算法利用了 GA 的探索能力和 ACO 算法的随机能力[16]。Kashef 等人提出了一种基于蚁群优化(ACO)的新型特征选择算法,称为高级二进制 ACO(ABACO)。该算法将属性视为图形节点,构建图形模型并完全相互连接。在该图中,每个节点具有两个子节点,一个用于选择,另一个用于取消选择。在游览结束时,每个蚂蚁都有一个二进制向量,其长度与特征数相同,其中1 表示选择,0 表示取消选择相应的特征[17]。Cai 等人提出了一种结合蚁群优化(ACO)和自回归的模糊时间序列模型。采用 ACO 来获得适当的话语范围划分,以促进预测性能。此外,采用自回归方法代替传统的高阶方法,以更好地利用历史信息,证明更加实用。为了计算不同阶数的系数,使用自相关来计算初始值,然后使用 LM 算法来优化这些系数[18]。
..........................
第二章 研究相关的基础知识介绍
2.1 SNP
(1)单核苷酸多态性
SNP(Single Nucleotide Polymorphism)是指基因组序列中的某个位点由于单个核苷酸(A、T、G、C)的变异而引起的整个基因组序列的改变。研究表明,两个不同个体的 99.9%基因组序列是相似的,但是剩下的 0.1%的不同基因组序列对个体的影响是巨大的,主要体现在对药物的反应和患病的概率上。在个体的基因组中,每隔大约 200 个碱基对就会有一个 SNP 位点发生改变,例如AAGCTTA 和 AAGCCTA 是来自两个不同个体的 DNA 的某段等位基因,其中第五个核苷酸 C 发生了变异转换成了 T。DNA 片段的 SNP 的构成示意图如图 2.1所示。
...............................
2.2 特征选择
随着信息时代的来临,各种各样的数据每天都在快速增长,为特征选择带来了一些重大的挑战和机遇。将机器学习用于处理现实任务中,当数据维数过高时,不仅会造成维数灾难,而且会导致设计出的模型按在低维数据下产生过拟合的问题,因此需要解决维数过高的问题。在机器学习中,解决维数过高问题通常是降维技术(dimension reduction),降维技术可以分为两个主要的部分,一是特征提取(feature extraction),二是特征选择(feature selection)。特征提取的含义是将原始高维空间通过某种数学变换,映射到一个低维度的“子空间”。特征选择则是从全部特征中选择出与当前学习任务相关的重要特征,剔除与当前学习任务不相关的特征和冗余特征。数据降维具有可以提高模型的学习效率、减少计算开销、降低存储空间等优势。在数据预处理策略中,特征选择往往是更加高效的解决方案[55]。
特征 SNP 子集的选择本质上是机器学习中特征选择过程。由于 SNP 数据之间存在较多的冗余,因此需要利用机器学习算法从大量的 SNP 特征中选择出具有代表性的信息 SNP 特征集合。
根据选择策略的不同,特征选择方法可分为三类:过滤式(Filter)、包裹式(Wrapper)和嵌入式(embedding)。下面将会对三种特征选择方法进行阐述并介绍其中常用的特征选择算法。
................................
3.1 改进的蚁群算法................................. 24
3.1.1 路径选择函数..................................... 24
3.1.2 信息素更新机制.................................. 25
第四章 随机森林特征选择优化算法 .............................. 36
4.1 基于数据选择优化和特征选择优化的随机森林............................... 36
4.1.1 基于相似度的数据选择优化方法......................... 36
4.1.2 基于多元权重的特征选择方法............................... 38
第五章 精神分裂症的诊断平台的设计与实现 ........................ 49
5.1 系统框架设计................................... 49
5.1.1 设计目标........................................... 49
5.1.2 需求分析.................................... 49
第五章 精神分裂症的诊断平台的设计与实现
5.1 系统框架设计
5.1.1 设计目标
本文系统的设计目标是:
1) 建立基于 SNP 数据的精神分裂症诊断系统;
2) 系统可运行于普通高性能 PC 机;
3) 与合作医院已有的网络数据库管理平台兼容并能实现信息交换。
5.1.2 需求分析
需求分析是系统设计的基础,主要就是从业务中获得系统可以处理的问题。精神分裂症诊断系统的首要目标就是建立信息 SNP 选择和基于机器学习模型的诊断系统,为以后建立大型的系统打下技术基础。
本系统主要面向合作医院的普通医疗人员,这要求系统易学易用,界面友好。用户可以自主进行数据检索功能,且考虑到医学工作者工作繁忙,系统能够方便的保存当前的处理结果。
系统能够针对不同的用户群体,赋予其不同程度的使用权限,例如普通用户只能进行常规的操作例如诊断记录查询、在线咨询医生查询和备忘录管理等,而医生用户还有数据的增删改查、模型的调用和可视化等功能。
...............................
第六章 总结与展望
6.1 总结
本文主要针对精神分裂症的 SNP 数据利用机器学习技术进行研究,以寻求更加高效的精神分裂症的 SNP 特征选择方法和分类方法,一方面能充分挖掘数据的价值,另一方面对精神分裂症的预诊和研究具有很好的社会价值。文章最后还基于 Web 实现了精神分裂症的智能诊断原型系统,使得研究的数据、方法以及结果有了很好的结合。
论文完成的主要工作如下:
(1)本文提出了一种新的 SNP 选择方法。SNP 位点过多且存在大量冗余,这既大大影响数据使用价值的情况,又阻碍了后续精神分裂症的进一步研究。在充分考虑了 SNP 位点的空间特性以及 SNP 对个体的健康状态影响的差异性的基础上,本研究基于蚁群算法提出了一种新的特征选择方法,将 SNP 数据特有的连锁不平衡引入到蚁群的启发式函数中,对蚁群算法作进一步优化,并对结果使用 KNN 算法进行重构。实验结果表面,一方面,新提出的蚁群方法与其他智能算法相比,其具有更好的重构准确性;另一方面,基于该算法的 SNP 选择方法构造出来的 SNP 子集,在经过分类实验的各项评价指标上较其他方法都有很大的提升,在各项指标上平均提升了 2.31%和 3.46%。
(2)随机森林随机选取数据和特征时,如果选择了部分多余且无用的数据和特征,则会对整体森林强度的提高带来负影响,针对这个问题,本文提出基于数据相似度的数据选择优化和基于特征权重的的多元特征选择优化算法。通过将数据和特征根据权重排序,并根据权重设定选取数据和属性的比例,同时设计基于分类误差的决策树加权投票方法。最终增加单个决策树的准确率,从而整体提高森林的强度。
(3)本文还完成了基于SNP数据的精神分裂症的智能诊断原型系统的开发。针对精神分裂症系统进行了需求分析,并设计了相应的功能模块;文章还介绍了整个系统的工作流程,并给出了系统的架构设计;最后对本系统的核心功能进行实现,并对实现的效果进行展示和说明。本系统不仅能对模型数据进行自动的特征筛选,还能通过加载事先训练好的模型实现对测试数据的分类预测。除此之外,系统还提供了多种形式的可视化模块,可以从数据、模型等多个角度进行展示,帮助用户更好地理解数据和使用模型。
参考文献(略)