第一章绪论
1.1研究背景与意义
随着数字技术在医学领域的应用,PACS和HIS系统的广泛采用,医院和医学中心每天都产生和处理着大量的医学数据,比如:电子病历,各种模态的医学图像(如,X光、CT、MRI等)与检查报告。这些医学数据的数量也正在迅速增加,并且呈现加速的趋势。如果能从这些大量异构的医学数据中检索出用户需要的信息,是很有研究价值以及应用前景的。在计算机辅助医学诊断(Computer-AideDiagnosis)应用中,可以通过为医生提供和现在患者情况相似病案的信息(如被证实的诊断结果、治疗方法和预后情况等)来辅助进行诊断和治疗。比如,有这样一个病案:女性患者,25岁,自述疲劳和吞咽困难。正面胸透显示存在一个不透明区域,有着清晰边界并与心脏右边界接触,右肺门结构可见,侧面X光片证实在前纵隔存在块状物。CT影像显示块状物组织密度均匀。如果能从医学数据库中检索出与该病案相似的其它病案信息,这将能帮助医生进行快速诊断,并为制定治疗方案提供帮助。相关研究也证实通过查找和分析相似的病案可以提高诊断的正确率。医学病案中往往包括患者的个人信息、症状、检查结果(影像、数据和描述)等信息,因此对医学病案的检索被认为是最贴近临床工作流程的检索模式。它不仅可以用于辅助诊断,还可以用于教学和研究工作,人们可以通过这项技术查找感兴趣的病案,比较诊断不同的相似病案。
1.2国内外研究现状
1.2.1医学病案检索的特殊性
医学病案通常包含病历、医学图像、诊断报告、治疗记录等信息,因此医学病案的检索就既涉及到文本信息又涉及到图像信息,从而使得医学病案的检索有其自身的特殊性:一是存在词汇鸿沟。由于医学领域使用了大量高度专业化的语言,所以包括很多很长的专业化的多词短语、词形变换和大量缩写。在医学病案中,相同的医学概念往往会有很多不同的关键词变体,因此,查询(Query)中的关键词很难精确匹配到文档(Document)中那些概念(Concept)相同但在词形上不同的变体,这一问题被称为词汇鸿沟。词汇鸿沟的出现大大增加了检索的难度,一直是基于关键字匹配检索的一大瓶颈,而这一问题通过利用医学知识可在一定程度上予以解决。二是一般查询过长。基于医学病案的查询条件往往包含大量的相关信息,例如病人的病历背景、检查结果以及病情症状描述等,在如此之长的查询条件中,很多查询关键词并不能有效的区分出相关的医学病案。此外,相对于基于文本的医学图像检索而言,医学病案的信息量要大许多。同时,同一医学病案的不同部分对文档本身的重要程度不同,因此在标准检索中对查询关键词进行加权的TFI/DF方法在医学病案检索中性能有限。基于此,Sondhi等人提出按照关键词的语义范畴来进行新的加权,比如属于特定医学领域范畴的关键词会被赋予一个相对较高的IDF(InverseDocumentFrequency,逆文档频率)权重,此外,还可以针对不同文本域分配不同的词项权重。
第二章信息检索基本理论
2.1信息检索流程
进行一般性检索时需要要先对文档和查询进行解析,包括词素切分、去除停用词、词项归一化、提取词干、建立倒排索引、检索查询、检索评价等步骤。
2.1.1词素切分
词素切分是指从文档和查询的字符串序列中获取词素的过程。在英语语料中这是很简单的处理过程,只要按照空格或特殊结束符来分割词项,而在亚洲语系中,例如汉字、日文、韩文,就显得比较麻烦了,这需要比较复杂的算法来解决,针对中文常见的有正向(逆向)最大匹配算法、近邻匹配算法、最短路径匹配算法、基于统计的最短路径分词算法等。
2.1.2去除停用词
一般情况下一些常见词在文档和用户查询的匹配过程中并没有多大的价值,为了提高检索的时间性能和索引的存储空间,可以将这些价值不大但出现频繁的词项去除掉,这些词就称作为停用词(stopword)。去除停用词是按照停用词表来进行的,一个简单的停用词表的构建方法就是先将词项按照词项的文档集频率(collectionfrequency,每个词项在文档集中出现的频率)从高到底排序,然后手工选择那些语义内容与文档主题关系不大的高频率词项作为停用词。停用词表中的每个词项都在索引的过程中会被忽略。下面是本文用在医学案例检索中所用的停用词表的一部分,其中有一些特属于医学案例中的常见词项:
2.2基本检索模型
检索模型提供了一种度量查询和文档之间相似度的方法。这些模型基于一种共同的思想:文档和查询所共有的词项越多,则表明该文档与这个查询就越是相关。但是自然语言本身存在着诸多不确定因素,在现实生活中一个相同的概念可能会用多种不同的词项(term)来表述(也就是同义词,例如高兴和兴奋通常指的是同一种含义),此外,同一个词项也可能会有多种语义(也就是一词多义,例如水分,可能是指事物的含水量,也可能指代不真实的成分)。而检索模型和检索算法就是为了采取相应的措施来解决这些自然语言中的不确定性问题。检索模型也就是一种检索算法,而算法的处理对象就是查询Q和文档集合)。SC是Similarity Coefficien(t相似度)的缩写,有时也记作RSV(Retrieval StatusValue),用来表示检索状态值。在信息检索领域常见的检索模型有布尔模型(BooleanModel)、向量空间模型(VectorSpaceModel)、概率模型(Probabilistic Model)和统计语言模型(StatisticalLanguageModel),下面的内容就将分别简要介绍这几种检索模型以及所使用的算法。
第一章绪论...................................................1
1.1研究背景与意义............................................1
1.2国内外研究现状.......................................................2
1.3本文内容与贡献........................................6
1.4本文的组织.....................................................7
第二章信息检索基本理论..................................8
2.1信息检索流程....................................................8
2.1.6查询处理................................................10
2.2基本检索模型..................................................11
结论
近年来,随着数字技术在医学领域的广泛应用,医院和医疗中心产生了大量的医学文章,但是对这些医学文章的应用还处于初始探索阶段。为了将这些宝贵的文章资料应用于实际的医学研究以及病情诊断和治疗中,对于医学文章的检索就变得越来越迫切,本文就是在这样的背景下进行医学文章的检索研究的。本文在分析了医学文章的特殊性之后,结合国内外对该课题的研究进展,提出并实现了自己的基于知识的医学病案检索方案。经过近三年的研究,本文主要做了一下几方面的工作,归纳如下:
(1)介绍了本课题的研究背景与意义,对该领域的国内外研究现状进行了总结,归纳了医学病案检索所面临的特殊性,结合ImageCLEFMed检索比赛对医学病案检索进行简要介绍。
(2)介绍信息检索的基本理论,包括四个基本的检索模型:布尔检索模型、向量空间模型、概率检索模型以及统计语言模型,此外,还介绍了两种开源检索引擎,并对信息检索的一般流程做了概述,之后还介绍了查询扩展技术和检索检索评价机制。
(3)介绍了本文中应用到的医学本体库和相应的工具:UMLS、MeSH主题词表以及MetaMap。
(4)结合ImageCLEFMedcase-based2011检索比赛的参赛经历,详细介绍了该比赛任务的数据集,通过对数据的预处理,在该数据集上选取了合适的数据项构成原始文档表示。然后在此基础上构建基准实验,通过对不同文档表示、不同检索模型的探索和尝试来寻找最优的检索方案以构成基准实验,并在后期的实验中用来进行比照。
参考文献
[1]H.Muller,N. Michoux ,D.Bandon, and A.Geissbuhler, Areviewofconten-basedimage retriealappli cations- Clinicalbene fitsand futuredi rections,Int.J.Med .Info rmat.,vo l.73,00.1-23,2004.
[2]DoiK.Computeraideddiagnosisinmedicalimaging:Historicalreview,currentstatusandfuturepotential.ComputMedImagingGraph.2007Jun-Jul;31(4-5):198-211.
[3]A.M.Aisen,L.S.Broderick,H.WinerMuram,C.E.Brodley,A.C.Kak,C.Pavlopoulou,J.Dy,C.R.Shyu,A.Marchiori,Automatedstorageandretrievalofthin-sectionCTimagestoassistdiagnosis:Systemdescriptionandpreliminaryassessment,Radiology228(2003)265-270.
[4]ParikshitSondhi,JimengSun,ChengXiangZhai http://sblunwen.com/yxss/,RobertSorrentino,MartinS.Kohn,ShahramEbadollahi,YanenLi.:MedicalCasebasedRetrievalbyLeveragingMedicalOntologyandPhysicianFeedback:UIUC-IBMatImageCLEF2010.IntheWorkingNoteso
[5]JingLiu,YangHu,MingjingLi,SongdeMa,andWei-yingMa.:MedicalImageAnnotationandRetrievalUsingVisualFeatures.IntheWorkingNotesofCLEF2006.
[6]HongWu,ChangjunHu,SikunChen.:UESTCatImageCLEF2010medicalretrievaltask.In theWorkingNotesofCLEF2010.;mso-ascii-font-family
[7] Penio S Penev .Local feature analysis :a statistical theory for information representation and transmission.New York:Rockefeller University,1998.
[8] Vladimir N Vapnik.统计学习理论[M].张学工,译.北京:电子工业出版社,2004.
[9] Scholkopf B .,Nonlinear Component Analysis as a Kernel Eigenvalue Problem[J].Neural Computation,1998.10:1299-1319.
[10] Tenebaum J B,Silvam V D。Langford J C。A global geometric framework for nonlinear dimensionality reduction.Science,2000,