第 1 章 绪论
1.1 研究背景及意义
1.1.1 研究背景
人口问题,一直以来都是我国重点关心的问题之一。在我国,严格地执行计划生育政策已经过了几十年的时间,这使得我国人口的出生率得到了显著的下降。但这一政策造成了我国人口结构发生了重大的变化,加速了进入老龄化社会的进程。进入 21 世纪,经济得到了飞速发展,在医疗卫生条件和人民生活水平等方面都有了肉眼可见的改善和提高。在新中国建立初期,我国人口的平均预期寿命为不到 40 岁,现如今已接近 80 岁,70 年左右的时间提高了一倍之多[1]。自20 世纪 70 年代,以来到 90 年代中后期,我国生育率已经从 5.81 降低到 1.8[2],在 2010 年,第六次全国人口普查的结果显示,我国的生育率已经降低到 1.18。生育率的不断下降,标志着中国已经进入到少子化严重的阶段[3],根据以上形式,我国老年人口数量预计在 2050 年增长到 4.93 亿,占比约为 34.1%[4]。随着老龄化的加剧,一并带来的社会保障方面的开销问题便越来越引起重视。老龄化现象导致了社会养老负担日益加剧,社会人口结构的迅速变化也使得国家的医疗保障体系面临着重重困难[5]。与青年人相比,老年人的患病率和发病率显著上升的原因,是老年人相应的免疫系统和生理功能的显著退化所导致,这一现象造成了老年人需要更多医疗卫生服务的结果。根据相关研究结果显示,相较于 65 岁以下人口,65 岁以上的老年人口所需要的人均医疗费用开销,往往是其 3 至 5 倍,甚至更多[6,7]。与一般人群相比,老年人的慢性病发病率是其 2 至 3 倍,这使得老年人在对医疗卫生服务方面有更多的需要[8]。根据中国老龄化的趋势预测,由于我国人口老龄化,所导致的医疗卫生服务费用消耗,将按 0.0154 的速度逐年递增,到 2023 年医疗费用负担较预计将会增长 0.264[9]。因此,加强我国中老年人的慢性病的防治,将会减少中老年人的患病率和发病率,从而减少社会医疗费用开销,进而减轻国家的社会保障负担。
.....................
1.2 国内外现状
1.2.1 数据仓库的应用研究
数据仓库可以为各级决策过程提供各种类型的数据,通常用于分析报告和支持决策。现阶段的大数据技术已经较为成熟,获得了各行各业的青睐,并且在全球范围内掀起了大数据应用的浪潮。
早在 2004 年,Google 公司发布了关于分布式文件系统,分布式计算框架和非结构化数据的存储系统的三篇论文,在当时各个公司都着眼于单机分布的硬件时代,Google 通过横向拓展思路,通过研发新的技术系统来解决数据问题,开创了大数据时代的先河,这三项重要的技术后来被称之为大数据的“三驾马车”。由于谷歌当时除论文外,并未将技术源码进行开源,之后 Apache 基金会通过对论文内容的复现,于 2006 年成功建立了一套完成而独立的软件并命名为Hadoop,自此大数据时代才是真正的到来,并被许多公司纳入使用。
现如今,大数据技术已经与我们的日常生活达到了不可切分的程度。国外大数据技术应用的起步较早,发展较为迅速,且率先在多个领域进行了尝试。Tsou等[15]通过建立船舶交通的自动识别系统数据库,并结合在线分析流技术和地理信息系统、轴心分析等,实现了海洋交通快速多维的高层信息查询、海洋交通特征分析和海洋交通规则的发现,为港口发展规划、交通预测、航行安全评估和其他决策的指定提供了参考。Woo 等[16]通过建立涵盖数据规范、存储、处理和检索功能的数据仓库,推进了制造业向智能制造方向的发展,实现了制造对象自治协调协作,以及数据驱动决策以实现制造对象的预测规划,并证明了该数据仓库平台在节能加工中的可行性和有效性。在金融行业,美国 MasterCard 公司通过分析其长久以来积累的用户信用消费记录信息,得到了客户的消费和商业发展趋势,并利用这些结果来为市场营销的方案决策提供理论支撑。
..........................
第 2 章 数据集与相关技术概念
2.1 数据集来源
本研究中所使用的胃肠疾病及相关数据来自于中国健康与养老跟踪调查报告(ChinaHealthandRetirementLongitudinalSurvey,CHARLS)。CHARLS 于 2011年开始,在全国范围内展开基线调查,之后每间隔一年对上次受访人群进行一次追踪调查。最终得到于 2011、2013 和 2015 在全国范围内的 28 个省(自治区、直辖市),150 个县,450 个社区(村)的调查访问报告。在 2015 年完成的全国追访工作中,已经获得了总计 1.24 万户家庭中的 1.9 万名受访者的样本数据。CHARLS 采用了多阶段抽样法,首先在县/区和村居层面采用 PPS 抽样法,在全国范围内(不含台湾、香港、澳门和西藏)获得 150 个县级的抽样单元;其次在各个抽样单元中,再通过分层抽样,按照地区、城市、农村和各县的人均 GDP为不同指标进行抽取,最终得到的中老年人数据涵盖了全国 28 个省市(未抽到海南和宁夏)[38]。该问卷内容丰富,包括从受访者的个人基本信息、健康状况、子女配偶信息、经济实力到受访者所居住社区在内的多维度数据。
据了解,CHARLS 问卷的应答率和数据质量在世界同类项目中位居前列,所取得的数据已经在学数据获得了广泛的应用和认可。因此本研究选用该问卷调查的数据来对全国范围内的胃肠疾病情况进行分析是可行的。
...................
2.2 相关技术理论
2.2.1 Hadoop 分布式系统
Apache 基金会以谷歌发布的分布式文件系统为原型,并在其基础上开发的分布式系统基础框架 Hadoop,通过计算机集群来对大型的数据集进行相关的分布式处理。Hadoop 框架的相关设计理念是对于每台单个本地机器而言,提供其自身所具有的计算、存储功能,并通过多台机器连接实现分布式集群。由于Hadoop 本身具有较高的容错性这一特点,使得机器集群对机器本身的性能要求不高,以便于部署在低廉的机器上。
图 2.1 Hadoop 生态系统
..........................
第 3 章 胃肠疾病主题数据仓库搭建及可视化................................. 24
3.1 搭建准备........................24
3.1.1 硬件准备 ............................24
3.1.2 软件准备 ...............................24
第 4 章 胃肠疾病建模与分析................................ 42
4.1 传统二元 Logistic 回归建模................42
4.2 不平衡数据的处理方法...........................49
第 5 章 总结与展望......................... 65
5.1 总结...............................65
5.2 展望....................................67
第 4 章 胃肠疾病建模与分析
4.1 传统二元 Logistic 回归建模
对数据进行单因素分析,所得结果如下表所示。
表 4.1 单因素分析表
..........................
第 5 章 总结与展望
5.1 总结
本研究从搭建以中国中老年人胃肠疾病为主题的数据仓库入手,通过对数据进行可视化分析和各地区患病率在空间上的展示,得到了胃肠疾病的高患病人群和地区的空间分布情况。在 SPSS 软件中通过 T 检验和卡方检验确定了可能影响患病的因素,之后再建立二元 Logistic 回归模型,对患病因素进行进一步的筛选。确定了最终的影响因素后,通过重采样的方法比较和选择出集成学习中所需的子分类器,建立多个不同的集成学习分类器来对患病情况进行预测分类,最终通过 GIS 中反距离权重插值绘制患病风险可视化地图。
在可视化的结果中,患病总人数最多地区是我国西南地区的四川省;年龄上,患病人群主要集中在 45 至 64 岁;而性别上,三年之中均是女性患病人数多于男性。在三年的患病率分布情况中,存在几个患病率较高的地区。西南地区以四川省的资阳市、内江市、仁寿县为中心,中南地区以江西一带为中心,华北地区以河北省的承德市,内蒙古的锡林浩特市、赤峰市为中心。对比三年分布发现,三个高患病地区均呈现出由中心逐步向外进行扩张的趋势。
空间自相关的结果显示,中国中老年人胃肠疾病在空间分布上确定存在较为明显的聚集。三年的趋势变化中,高高聚集区范围表现为从四周逐渐向四川省南部和重庆市为中心的一带聚集,而其他高值区域逐渐消失。低值聚集区域从2011 年的河北省大部分地区、河南省北部,逐渐向山东省聚集,最终变化为 2015年的结果。通过热点分析,确定了高患病地区始终分布在四川省和重庆市一带,这一结果与空间自相关分析和可视化的结果一致,表明结果具有较高的可信度3002
参考文献(略)