第一章绪论
1.1结直肠癌研究概况
1.1.1结直肠癌的流行病学特征
根据世界卫生组织国际癌症研究机构的统计结果,2008年全球结直肠癌新诊断病例达120万,结直肠癌导致的死亡人数占全部癌症死亡人数的8%[1]。近年来,随着我国经济的快速发展和国民生活质量的逐渐提高,结直肠癌在我国人群中的发病率和死亡率均有所增加,该疾病是我国发病率第三位和死亡率第五位的恶性肿瘤,越来越成为威胁人们健康和生命的杀手。除denovo结直肠癌(病灶中无腺瘤的新生结直肠癌)[2]外,大部分结直肠癌发生前常有家族性腺瘤性息肉病、炎性肠病和结直肠腺瘤等病变。结直肠腺瘤是散发型结直肠癌最常见的癌前病变,大约40%的60岁以上病人体内都有这种腺瘤[3];普通人群中出现结直肠腺瘤的比例高达50%,但其中只有6%病人的结直肠腺瘤最终转变为结直肠癌[4]。因此,并不是所有的结直肠腺瘤都会癌变。目前,由于结直肠癌的确切发病机理还不是十分清楚,因此仍没有研究出高效的根治结直肠癌的治疗手段和药物。
但是,在我国结直肠癌的发病和死亡形势却愈加严重。世界范围内,结直肠癌的发病和死亡情况具有非常显著的地域差异,与中南亚和非洲这些发病率较低的地区相比,欧洲、新西兰、澳大利亚及北美等是结直肠癌的高发地区;而与中非地区相比,东欧和中欧是结直肠癌死亡率较高的地区[5]。男女发病比例方面,武子涛等回顾性分析了2010-2011年间在6家华北地区医院就诊的2450个结直肠癌病人的资料,发现男女结直肠癌病人的比例为1.28:1.00[6],与国际普遍报道基本一致。在不同年龄的人群中,结直肠癌的发病率和死亡率情况也存在明显差异。研究表明,0-39岁人群患结直肠癌的概率较低,40岁以上的人群患结直肠癌的概率明显升高,80岁以上人群患结直肠癌的概率最高,85岁以上人群患结直肠癌的概率则有所下降。而结直肠癌在0-49岁人群中的死亡率较低,在50岁以上人群中死亡率快速升高,在85岁以上人群中的死亡率最高[7]。
......
1.2基因芯片技术
1.2.1基因芯片的产生背景
在基本绘制完成人类基因组草图后,人类基因组研究计划(HumanGenomeProject,HGP)就进入了后基因组时代,生物领域的研究重点也从基因序列转变成了基因功能,以研究清楚基因组、蛋白组甚至整个生命系统运行的机理。传统的以电泳或杂交为基础的基因测序、表达、突变检测以及多态性分析等研究方法已经不能满足研究大量基因任务的要求。因此,迫切需要更加高效的工具和方法来同时研究这些基因的功能,以及它们间表达与调控的复杂关系网络。于是,生物芯片技术就在这样的背景下应运而生。生物芯片起源于Affymax公司(Affymetrix公司的前身)里的一个临时建议,由Fodor组织分子生物学专家和半导体专家一起研制而成[33]。学者们在1991年通过光蚀刻技术制成了多肽[34],在1993年开发了寡核苷酸生物芯片[35],在1994年又认为可以用通过光导合成的寡核苷酸芯片快速完成DNA序列的分析[36],在1996年生产出全球第一块商业性质的生物芯片。
1.2.2基因芯片的概念
计算机芯片是将不同的功能单元集中在一块小型器件上。基因芯片(又称生物芯片、DNA芯片)概念起源于计算机芯片,它借用了集成化这一计算机芯片的特点,把蛋白质和核酸等生物大分子密集固定排列在尼龙膜、玻片、硅片、聚丙烯等固相载体上,从而制成微型的器件。所以,从狭义上来说基因芯片又被称为微阵列芯片,包括蛋白质微阵列、寡核苷酸微阵列、cDNA微阵列以及小分子化合物微阵列。从广义上来说,基因芯片的概念就是指可以对生物分子或成份快速分析和处理的微型固体器件,是将生物微机电和微阵列技术结合起来,通过微电子和微加工技术构建在固体基片上的微型生化分析系统,可以用来实现对包括DNA、蛋白质、细胞在内的大信息量生物组份的快速和准确的检测。基因芯片是生物学与微机械、微电子、物理技术、化学、计算机技术之间交叉融合的产物,使生物学研究中的非连续性的样品制备、化学反应和检测分析的过程集成化、连续化、微型化[37],并有分析速度快、通量高和消耗少的特点。
......
第二章基于芯片数据的生物信息学分析来挖掘结直肠癌中的关键基因
2.1研究目的及意义
在本章节的研究中,我们预处理并分析了从公共数据库下载的结直肠癌组织样本及与其配对的癌旁非癌组织样本的表达谱数据,筛选出在上述两种样本中差异表达的基因,并进一步应用构建蛋白质-蛋白质互相作用网络、重启型随机游走分析、富集分析和药物-基因作用分析等一系列生物信息学手段对差异表达基因进行了研究,来挖掘与结直肠癌发生、发展有关的关键基因并探索其功能,同时尝试寻找可能被抗肿瘤药物调节的结直肠癌基因,以期为后续的实验研究在分子水平揭示结直肠癌的发病机制奠定基础。
......
2.2材料和方法
2.2.1芯片数据来源
芯片数据来源由美国国立生物技术信息中心(NationalCenterforBiotechnologyInformation,NCBI)于2000年7月创立的基因表达综合数据库(GeneExpressionOmnibus,GEO,http://www.ncbi.nlm.nih.gov/geo/)是通过美国医学图书馆网站对外发布信息并提供检索服务的[54],它是目前世界上第一个,也是规模最大的芯片数据的公共贮存库(图2-1)。科研人员只需要按照网站的指示,先后注册用户账户、填写实验的详细资料(包括实验流程、样本信息和分组情况、使用的测序平台等)并上传数据,即可在GEO上存储表达谱数据资料。用户上传的数据经NCBI中心审核通过后即可以获得以GSE开头的数据登录码。
创建 GEO 数据库的目的是为了能够收录大量高通量实验数据,并使高通量实验方法在未来得到广泛的应用。因此,GEO 数据库具有与时俱进的特色和极大的灵活性和开放性,用户可以很容易就进入该数据库并下载上面的数据资料。GEO 数据库支持符合微阵列实验的最小信息(minimum information about amicroarray experiment,MIAME)的数据提交[54],这些数据可以是用于测量基因组 DNA、mRNA 和蛋白质丰度[55, 56],单通道以及双通道的微阵列实验[33, 57]和非阵列技术,包括质谱分析蛋白组学数据和基因表达系列分析数据等[58]。
提交到 GEO 数据库的的数据可以分为三类:即平台、系列和样本。平台主要介绍可以通过实验进行定量和检测的成分(例如基因表达连续分析标签)或者阵列上的成分(例如抗体、寡聚核苷酸探针、cDNAs 和开放阅读框)。样本主要是记录个体样品的信息,处理过程和测定的每个元素的丰度。系列是用来记录一系列相关样品之间的联系,以及是否有序和排列顺序。它同时也包含提取数据、分析的表格或者概括结论相关的描述。每一个描述对应于唯一的GEO 登录号[59],而 GEO 登录号的首字母可以区分开这个条目描述是 GEO 系列(GSE)、GEO 样本(GSM)或者是 GEO 平台(GPL)。
......
第三章 结直肠癌中关键基因的验证及功能分析........37
3.1 研究目的与意义................................37
3.2 材料和方法....................................37
3.2.1 材料...................................37
3.2.2 实验方法................................ 39
第四章 讨论.................................... 57
第五章 结论...................................... 67
第四章 讨论
高脂肪低纤维素饮食、缺乏运动、炎性肠疾病、遗传因素等都是结直肠癌发病的危险因素[5]。根据肿瘤的局部浸润(T)、区域淋巴结转移(N)和远处器官转移(M)这三个要素的情况,专家学者们提出了结直肠癌的 TNM 分期。处于TNM I 期和 II 期的结直肠癌病人手术治愈的希望较大,术后一般不需要化疗等进一步治疗,尤其是 TNM I 期的病人,其 5 年生存率达到了 90%;但如果癌细胞扩散到淋巴结中(TNM III 期),此时通过手术结合放化疗等治疗手段也只能使 73%的病人获得治愈的可能;如果肿瘤继续发展至肝脏、肺等远处器官转移时(TNM IV 期),绝大多数病人已失去了根治性治疗的可能性,即使应用靶向药物等先进的治疗方案,其远期效果一般也极差。故明确结直肠癌的发病机制,做到早期诊断和有针对性的个体化治疗是结直肠癌病人获得良好预后的关键所在。而结直肠癌的产生和发展是环境等多种因素和多种基因共同参与的多步骤、多阶段的复杂演变过程[73],癌基因激活而过表达和/或抑癌基因失活而低表达、失表达是肿瘤发生的根本原因。在分子水平上,染色体不稳定(chromosomalinstability,CIN)、微卫星不稳定(microsatellite instability,MSI)和 CpG 岛甲基化表型(CpG island methylator phenotype,CIMP)是结直肠癌的三大主要机制,其中 CIN 是主要的表现形式,大约有 85%的结直肠癌存在 CIN;诸如 APC、K-RAS、DCC 等多个基因通过 Wnt 通路、TGF-β通路、MAPK 通路等多条信号通路参与到结直肠癌的早期或晚期事件中,促进了其生物学进程。虽然经过不懈努力,我们目前对结直肠癌分子机制方面的认识已经有了长足进步,尤其是出现了像阐明遗传性非息肉病型结直肠癌的发病机制这样的标志性进展,但如何在众多的基因中寻找到与占绝大多数的散发型结直肠癌相关的关键致病基因,并确切的了解其功能及作用方式仍是我们面对的难题。生物信息学是涉及多个领域的一门交叉学科,其核心内容之一就是研究基因表达调控的内在机制,揭示人类疾病的本质规律,为更便捷的分析大量而且在继续快速增长的 DNA 数据库中的序列数据,以及进一步探究 DNA 结构与生物功能之间的联系创造了条件。我们的研究正是应用了表达谱芯片数据的预处理、差异表达分析、结直肠癌基因(即种子基因)搜索、PPI 网络构建、重启型随机游走分析、功能和通路富集分析以及基因-抗肿瘤药物相互作用分析等多种生物信息学方法,分析了从 NCBI 的 GEO 公共数据库中下载的包含结直肠癌组织及其配对的癌旁非癌组织的表达谱数据集GSE32323,并通过 PCR、MTT、CCK-8 和流式细胞技术等实验手段对生物信息学分析结果进行了验证,目的就是要挖掘出与结直肠癌相关的基因并初步探究其功能,以期从分子水平揭示结直肠癌的发病机理,为其基因诊断和个体化治疗提供依据。
......
第五章 结论
1、对基因芯片数据GSE32323进行差异表达分析,获得了结直肠癌相关基因表达谱。共筛选出1640个差异表达基因,包括850个表达上调基因和790个表达下调基因,其中LTK、NOSTRIN等11个基因是首次被发现可能与结直肠癌相关。上调基因显著富集到了细胞周期中,说明这些基因可能在结直肠癌疾病过程中通过调控细胞周期发挥作用。
2、发现了结直肠癌相关基因的调控网络。CRC.PPI网络内亲和力分数较高的前50个节点中包括31个差异表达基因。它们中的CCND1、AURKA、NEDD9和BUB1B等基因都多次富集到了细胞周期时相(cell cycle phase),细胞周期(cellcycle)和细胞因子-细胞因子受体相互作用等多个有重要意义的功能和通路中。而药物-基因相互作用分析显示,只有CCND1,AURKA和DEPTOR存在可能与它们表达变化逆向作用的药物。表明CCND1,AURKA等基因可能通过调控细胞周期和参与重要的信号通路等多种方式在结直肠癌发病机制中发挥关键的作用,并有可能成为肿瘤靶向药物治疗的有效靶点。
3、CCND1 和 AURKA 在结直肠癌组织和三种结直肠癌细胞系中均有不同程度的表达上调,且大都有显著意义,与生物信息学分析结果一致,说明生物信息学是较可靠的研究基因及其功能的方法。
4、RNA 干扰沉默 AURKA 或 CCND1 后,SW480 细胞的增殖能力显著下降,G1-S 细胞周期进程受抑制,并且细胞凋亡增加。提示 AURKA 和 CCND1可能是结直肠肿瘤发病机制中的关键基因,并主要通过调控细胞周期发挥作用。这与生物信息学结果一致。深入研究 AURKA 和 CCND1 基因对实现结直肠癌的早期筛查诊断和有效的靶向治疗有较重要的意义。同时,以上所有研究结果也为通过生物信息学进一步研究生命现象、揭示生命本质提供了前提和理论基础。
......
参考文献(略)