第1章 绪 论
1.1 引言
随着现代科技的发展,我们产生和收集数据的能力越来越强大,科学实验数据、医疗数据、人口统计数据、金融数据等等正在将我们淹没。人们已将关注的焦点从如何获取大量数据转移到了如何应对大量数据,于是数据挖掘自然成为一种迫切需求数据挖掘是指从大量的数据中以非平凡的方法发现有用的知识的过程,是个多学科的交叉领域。它可以帮助我们从海量的数据中发现自己感兴趣的内容和知识,从而帮我们解决现实问题。聚类是数据挖掘中的一种重要方法。聚类是在无先验知识的条件下,将数据对象分成簇或类的过程,使同一个簇的对象有较高的相似度而不同簇的对象之间有较高的相异性。聚类分析已经被应用到了很多领域,例如图像处理、数据分析、模式识别和市场研究等等。近年来,随着数字成像技术和互联网的发展,图像数据变得越来越多。但是图像数据与以往的结构化数据相比,表现形式更加复杂不一致,所以不能简单地将已有的针对结构化数据的聚类方法移植到图像聚类上,因此图像聚类一直发展缓慢。近年来随着科研人员的不断研究,第一届多媒体数据挖掘会议(MDM/KDD2000)在2000 年召开,这标志着图像挖掘有了较大的进步,开始迅速发展起来。目前图像挖掘研究主要有两个方面的内容,面向特殊领域的研究和面向通用领域的研究。
1.2 研究背景和意义
图像信息在现代的信息系统中有着其他形式(如声音和文字等)不可取代的优势。但是和普通的数据相比,图像数据拥有很大的特殊性。首先,图像中的信息大都是隐含的;其次,图像信息常具有多义性,不同的应用领域对同一图像的解释也大不相同;最后,图像中的对象之间有空间关系。这些都限制了已有的针对普通数据库或数据仓库的优良挖掘算法直接被应用到图像挖掘上的效果。图像数据中,医疗图像数据占据了很大的比例。在近20 年来,医学成像技术成为了医学技术中发展飞速的领域之一,医学图像越来越容易获得和存储。在医疗系统中,医学图像有着重要的作用。通过对医学图像的观察,
第2章 医学图像的预处理
医学图像预处理是医学图像聚类乃至医学图像挖掘很重要的一部分,可以说,医学图像聚类最终结果的精确度不仅取决于使用聚类算法,还取决于前期的预处理部分。在聚类过程中,医学图像预处理主要作用是将医学图像中可以用于相似度比较的特征提取精炼加以存储,并消除那些会对聚类结果产生不利影响的噪声和冗余部分。
2.1 引言
对于医务人员来说,并非每个医学图像中的像素都是值得去观察的,医生们会更关注那些与众不同的像素区域。我们把医生们会感兴趣的这些区域称之为ROI。提取医学图像的ROI 主要方法是将对医学图像做分割。图像分割对于图像挖掘的整个领域都有重要的意义,可以说,任何图像挖掘的过程都是建立在图像分割得到的特征数据上的,图像聚类也不例外。图像分割根据具体的标准从一张图片中提取出需要的数据,将一张图片转换为计算机可处理的数据,为之后其他的数据挖掘过程作铺垫。图像分割主要有两个任务,一是识别,二是描绘。识别的目的在于定位目标区域并使之区别于图像的其他区域,描绘则是精确地定义和刻画图像中的目标区域或是其边缘的空间范围。目前较多被利用的图像分割方法有交互式分割算法、区域生长分割算法和阈值分割算法。在以往的图像研究中,研究人员都是基于传统图像的特征(比如颜色、纹理和形状)来提取ROI 的。但是这并不适用的医学图像。
2.2 基于医学领域知识的ROI
通过研究脑部医学和脑部CT 图像,我们知道正常人的脑部左右两部分基本是对称的,如图2.1 所示,而病变的区域则会使脑部的CT 图像呈现不规则的灰度分布,从而破坏有规律的对称性,如图2.2 所示。通过对大量脑部CT 图像的观察和分析,我们发现,在正常情况下,同一部位的医学图像是十分相似的,他们的特征几乎一样,而且是一个相对对称的图像。而对于产生病变的脑部组织,病变组织不仅会使图像上产生一些正常图像没有的ROI,而且会破坏对称性。
第1 章 绪 论......................................................1
1.1 引言..................................................................1
1.2 研究背景和意义...........................................1
1.3 研究现状.....................................................2
1.4 问题的提出..............................................13
1.5 研究内容........................................14
1.6 论文的组织结构.......................................14
第2 章 医学图像的预处理...........................15
2.1 引言............................................................15
2.2 基于医学领域知识的ROI ..........................16
2.3 ROI 聚类..................................................20
2.3.3医学图像的RC 表示法.....................22
2.4 本章小结...............................................23
结 论
本论文针对医学图像的聚类方法进行了探讨和研究。主要内容包括两部分,一是基于传统图像聚类算法对于前置参数和噪声的敏感,提出一种在差分进化思想的指导下对图像进行聚类的方法;二是针对现有方法忽视医学图像本身的领域知识这一问题,提出一种将图像转化为图的形式,使用图聚类的算法对医学图像进行聚类分析的方法。现有的医学图像聚类算法大都是基于传统关系数据库的聚类算法的移植,既不关注医学图像的特点,也不关注医学领域知识,并且这些传统的聚类算法中,实验参数的设置及其重要,但是聚类是一种没有先验知识的挖掘过程,很多的参数不是要在实验中一一试验,就是根据以往的经验去选择,而且的参数对于结果的影响是十分大的,这在很大程度上对聚类结果的精确度有所限制。基于此,我们将差分进化的思想引入医学图像聚类过程,将图像聚类问题转化为一个最优化问题,通过个体在解空间的变异、交叉和选择产生最后的结果。算法既不对事前设定的参数敏感,又可以对结果的精确度进一步提高。
参考文献
[1]Jiawei Han, Micheline Kamber.数据挖掘:概念与技术(2nd)[M].范明,孟小峰(译).北京: 机械工业出版社, 2007.
[2]蒋爱德,王静.图像挖掘的方法与技术研究[J].电脑与信息技术,2009:13-15.
[3]陈久军.基于统计学习的图像语义挖掘研究[D].浙江大学博士学位论文,2006.
[4]Co-Clustering Image Features and Semantic Concepts[C].Image Processing,2006:137-140.
[5] 瞿爱珍,庄天戈.计算机辅助医学诊断系统的数据挖掘和知识发现研究[J].国外医学(生物医学工程分册),2002:97-103.
[6]蒋爱德,王静.图像挖掘的方法与技术研究[J].电脑与信息技术,2009:13-15.
[7]杨敏,基于内容的医学图像检索中特征提取技术研究[D],西北工业大学硕士学位论文,2007.
[8]杨生友.聚类分析在医学图像中的应用[D].兰州大学硕士学位论文,2009.
[9]宋余庆.医学图像数据挖掘若干技术研究[D].东南大学博士学位论文,2004.
[10] 潘海为, 谢晓芹, 张炜等. 基于ROI 的医学图像聚类算法[C]. 计算机科学.2006,33(11):239–241.