第一章 绪论
第一节 研究背景及研究意义
一、研究背景
大数据发展至今,开始应用于越来越多的行业当中,尤其是在医疗方面的应用发展更为迅速。信息化建设当中的以个体为单位的信息中心慢慢的构建成了将数据信息整合在一起的数据中心,信息数据都会上传至数据中心服务器进行统一管理 [1, 2] ,医疗数据与其他的数据的不同点在于其数据内容直接涉及到用户的个人隐私。随着医疗患者的增多,带来的是医疗相关数据量的显著增长。据著名市场调研机构IDC 预测,2020 年内,全球的医疗数据将高达 35ZB。医疗大数据除大数据的基本特点外,它的全息数据(患者的全过程数据),实时数据(实时收集患者信息),时效性(由于患者的健康随着时间的推移会发生变化)、多态性、隐私性、冗余性也是目前医疗数据增长迅速的原因。
我国对于医疗数据的关注度也在逐日提升,2015.9《国务院关于印发促进大数据发展行动纲要的通知》[3]中提出构建电子健康档案、电子病例数据库等。2016.6在《国务院办公厅关于促进和规范健康医疗大数据应用发展指导意见》 [4]提到,通过探索互联网医疗服务的新模式等方式,加快建设让老百姓满意的医疗卫生事业,为打造健康中国提供强有力的支撑,以此,医疗健康大数据正式纳入国家战略。
随着医疗数据关注度的提升,医疗数据潜在利益让隐私数据全问题面临着极大的挑战。特别是近年来云服务的出现,大量的个人隐私数据都存放于网络空间,极大的增加了隐私泄露的几率[5] 。例如,2019 年 2 月,加拿大有 270 万医疗录音文件遭到泄露,美国由于服务器配置错误,造成了 97.4 万美国患者的隐私数据遭到泄露。2019 年 4 月,印度医疗保健机构管理的数据库在没有密码保护的情况下连接到外网,导致 1250 万印度孕妇记录遭到泄露[6] 。这些重大的隐私数据泄露事件,特别是和我们健康息息相关的医疗领域的隐私泄露,对我们的隐私造成严重的威胁,为此国家在 2018.9 月印发了《国家健康医疗大数据标准、安全和服务管理办法(试行)》[7]来加强医疗数据的服务和管理。医疗数据的隐私保护也逐渐成为了学者研究的主要方向之一。
............................
第二节 国内外研究现状
一、大数据研究现状
本文通过 CNKI 官网搜索,截止到 2019 年 6 月,国内期刊中收录的以大数据为主题的文章共有 86001 篇,其中带有医疗主题的文章共 653 篇。相比于 2010 年开始,该数据有了显著的提升。
李相宗[8](2019)在文献中对当前医疗大数据的应用现状进行了探讨,分析了在医疗大数据的发展过程当中可能会面临的挑战,并提出了在大数据时代医院转型的若干建议;刘文韬[9](2018)在文献中提出建立医疗大数据人才库,对现有的医院医疗数据库进行共享和整合,制定医疗行业数据标准,使医疗数据结构化,并建立质量控制标准来指导医疗大数据的应用安全;徐志祥[10](2017)介绍了健康医疗大数据的来源、数据特点和大数据分析技术,对健康医疗大数据的应用前景进行了分析,列举了在应用过程中会面临的数据整合难、缺乏数据安全保障、人才稀少、技术不足等挑战,并从人才培养、学科交流等方面提出了建议;陈敏[11](2017)参考大数据架构,提出了由基础类、数据类、技术类、应用与服务类、安全与隐私类、管理类所组成健康医疗大数据标准体系框架。
Alonso[12](2017)等通过对医疗大数据来源以及技术的相关文献汇总分析,指出卫生部门所使用的大数据和技术是医疗大数据应用方面的重要影响因素;Goossens[13] (2015)等人在文献中论述了通过使用大数据技术来监测实验室数据过程的实际案例;Wang[14] (2015)等人在文献中证实医疗大数据在高血压治疗研究中扮演重要角色;Rehman[15](2017)等人研究了通过采集获得的多种医疗数据,
提出了数据泄露、安全与隐私等相关问题,并详细讨论了大数据在医疗中的应用;Mounia[16](2015)等人在文献中分析了大数据时代,医疗行业所面临的挑战,之后对大数据下的医疗隐私问题提出了相应的建议;HamadR[17](2015)等人在文献中探索了获取整体健康的方法,提出可以基于风险评分来捕获整体健康状况。
...........................
第二章 理论基础
第一节 医疗大数据
一、医疗大数据简介
医疗大数据是大数据的一种,且在大数据中处于极其重要的地位,一般认为与人体健康活动相关而产生的数据统称为医疗大数据。医疗大数据较多的是使用若干基本特征去认识它。例如,把大数据的特征概括为 4 个“V”应用于医疗领域中,即规模(Volume)、快速(Velocity)、多样(Variety)、价值(Value)[36, 37] 。除此之外,医疗大数据的时间性(例如病人的发病以及医学检测的波形、图像信号等都具有时效性,属于时间函数) [38]、多态性、隐私性(医疗数据当中不可避免会涉及到患者的隐私信息,这些信息的泄露会对患者的生活造成不良的影响) [39]、冗余性也是目前讨论医疗大数据的特点[40, 41]。
于广军[42]等将医疗大数据的来源总结为医药科学,临床数据,医疗保险,健康管理 4 个大方面,其中医药科学中研发药物所产生的数据量非常巨大,即使对于普通的中小型企业,其数据量也在 TB 级以上;临床数据由于时时刻刻都在增长,其数据量增长也非常快,做 CT 检查时生成的一张普通图像含大约 150MB 的数据,一个标准的病理图则接近 5GB;医疗保险数据是患者就医过程中产生的费用信息、报销信息等,由于患者基数大,其数据量也占有相当大的比例。
医疗大数据备受关注的主要原因之一在于其用途广泛,且数据利用价值高。例如在常见的医疗大数据用途当中如图 2.1 所示,用药分析、病因分析、疾病预防等都与我们的生活息息相关。
........................
第二节 研究方法及相关理论简介
一、基础研究方法
1.文献法。
阅读最新的国内外期刊论文,了解医疗大数据隐私泄露行为研究现状。分类总结阅读的论文,做好相关文献整理及文献综述。整理与医疗大数据隐私泄露行为因素相关文献,总结出第一阶段的行为因素指标体系,整理 Petri 网建模知识,为撰写论文打下理论基础。
2.问卷调查法
对医生,护士,医院管理者,技术人员,科研人员,大数据从业者进行调查分析,采用问卷调查法,在医疗大数据隐私泄露行为指标体系的基础上,构建出隐私泄露行为的可能性及严重性权重。
3.调查统计法
对医生,护士,医院管理者,技术人员,科研人员,大数据从业者发放问卷,参与调查问卷者根据自己对各行为因素重要的认识进行 1-5 分的打分,最后本文将调查问卷结果进行统计,并进行最后的权值计算。
二、Delphi 专家调查法
主要是通过成立专家组,依靠专家在本领域的经验及专业知识,通过 Delphi法多次对专家意见进行整理,得到一致性的意见,能够对各隐私泄露行为因素进行遴选与补充,最终确定隐私泄露行为指标体系 [44, 45]。
................................
第三章 医疗大数据隐私泄露行为因素分析与指标体系构建............. 19
第一节 隐私泄露行为因素分析 ......................... 19
一、数据采集行为 ......................... 19
二、数据存储行为 ........................ 21
第四章 医疗大数据隐私泄露行为模型...................................... 35
第一节 基于 PPN 的医疗大数据隐私泄露行为模型 ............................ 35
一、采集模块 ....................... 37
二、存储模块 .................................... 40
第五章 仿真实验与结论 ............................. 59
第一节 实验环境与数据来源 ............................... 59
第二节 泄露可能性计算 ............................... 59
第五章 仿真实验与结论
第一节 实验环境与数据来源
本实验旨在通过 PPN 模型对隐私泄露行为进行量化分析,在应用模块用户可信度的计算中,本文采用聚类分析的方法进行模拟实验,考虑到数据量,以及对大数据聚类分析的支持度、稳定性等问题,本文选择了如下实验环境:
(1)处理器:Internet Core(TM) i5-3230 @2.60GHZ
(2)操作系统:Windows 10 专业版 64 位 ( DirectX 12 )
(3)处理器:英特尔 Core i5-6500 @ 3.20GHz 四核
(4)内存:8 GB ( 芝奇 DDR4 2133MHz )
(5)主硬盘:三星 SSD 750 EVO 120GB ( 120 GB / 固态硬盘 )
(6)运行软件: Visual Studio Code 2019 (version 1.33)
(7)编程语言: Python3.6
本文实验数据均来自于姜茸教授的国家自然科学基金项目,该项目与昆明市某医院合作完成,医院所使用的医疗系统于 2012 年投入使用,采用 Oracle 11G 数据库,部署于 Windows 2008 操作系统。本实验中所采用的数据均来自该项目,保证数据来源真实可靠。
...............................
第六章 总结与展望
第一节 本文总结
在医疗信息化越来越高,医疗数据越来越多,暴露出来的医疗大数据的隐私泄露问题,为了更好地推动医疗大数据的发展以及减少隐私的泄露。本文对医疗大数据隐私泄露行为进行分析和量化,通过对隐私泄露行为的分析与建模,指出医疗大数据生命周期的各个模块中隐私泄露的可能性与严重性,给医疗大数据的隐私保护提供一些参考。
1.总结了医疗大数据的来源与特点,概括了医疗大数据的生命周期,并总结了现阶段医疗信息化过程中存在的患者隐私泄露风险。
2.通过分析医疗大数据生命周期各模块中存在隐私泄露行为等综合调研,总结出了隐私泄露行为指标体系。
3.运用改进后的 PPN、聚类分析等综合建模,评估隐私泄露行为的可能性与严重性。并通过仿真实验,验证模型的可行性与合理性。
参考文献(略)