在医学论文写作中,常常要引用参考文献。其医学文献质量高低与我们的临床医疗实践活动密切相关。然而,如果统计学方法应用不当,不仅不能准确地反映科研结果,而且还可能带来错误的结沦。所以我们必须学会如何在医学论文中正确应用统计学方法,起到应有的作用。下文笔者就来具体讲讲,希望对大家有所启发。
医学论文正确应用统计学方法
1 统计学方法的内容
统计软件包、统计分析方法及检验水准是统计学方法必须描述的3 方面内容。SPSS (statistics package for social science) 和SAS(statistical analysis system ) 是全世界学术界公认且最常用的两大统计软件包[6]。检验水准即A,表示组间实际无差别而统计结果判断为有差别,犯这类错误的概率[1]。实际工作中常取 A=0.05,表示本次研究计算所得P 值必须小于0.05,才能认为组间差异有统计学意义。因而本刊对于检验水准的描述多简化为“P值< 0. 05 为有统计学意义”。统计分析方法的准确描述是科技论文科学性的关键所在。统计学方法一般包括统计描述和组间差异性检验(即:假设检验) 两部分内容。现详细叙述如下:
2 统计描述
统计描述主要是根据资料类型及原始数据分布类型,选择正确的指标描述资料特征。资料类型分为定量资料和定性资料,前者是指对每个观察对象测得的某个指标能够用具体数据表示,如:年龄、身高、每张切片的阳性细胞百分率等; 后者指对每个观察对象测得的某个指标不能用具体数值表示,仅反映观察对象的某一特征,如: 阳性、阴性,ABO 血型,治愈、显效、好转、无效等。定量资料如果符合正态分布,统计描述指标可用均数及标准差,一般描述为“数据以均数±标准差表示”; 如果不符合正态分布,则统计描述指标选用中位数和级差(即: 最大值和最小值之差)。
区分资料是正态或偏态分布,可以通过SPSS、SA S 统计软件程序判断,也可以通过目测数据是否有"极端值",即特别大或特别小的数据,进行判断[7]。定性资料的统计描述包括率、构成比及相对比。率表示单位时间内某现象或事物发生的概率,如发病率、死亡率等;构成比指事物内部某一部分的个体数与该事物各部分个体数的总和之比,表示各构成部分在全体中所占的比重或分布,不能说明某现象发生的频率或强度,如性别构成、疾病构成、死亡构成等。二者的区别从以下公式则一目了然。然而,在实际应用中以构成比代替率很常见。例如,某文分析240 例耳鼻咽喉科住院患者,鼻窦炎41 例,称发病率17. 08% ,文中“发病率”实际为鼻窦炎患者在该科所有患者中的构成比。此外,还有将病死率误用为死亡率、患病率误用为发病率等,这些都需引起作者的注意。某种疾病发病率= 某段时间内发生该疾病的人数/某段时间内可能发生该种疾病的总人数某种疾病构成比= 某段时间内发生该疾病的人数/某段时间内发生各种疾病的总人数
3 假设检验
科技论文中最常用的是组间差异性检验。假设检验方法很多,不同的科研设计类型及资料类型适用的检验方法有所不同。定量资料与定性资料常用的统计分析方法介绍如下。
3.1 定量资料
定量资料的统计分析方法包括参数法和非参数法,前者如t检验、方差分析,后者如秩和检验。选择的关键在于资料分布类型,如果资料符合正态分布且组间方差齐(即各组标准差彼此接近) 则选用参数法,不符合则选用非参数法。但在许多医学论文中经常忽略这两个条件,不考虑资料的分布直接采用t 检验或方差分析,由此得出的分析结果是不可信的。
3.2 定性资料
定性资料整理与归纳后,主要分为3 种类型,即四格表资料(只有2 组,且结果变量为2 分类变量,总络子数为4 )、行×列表资料(总格子数> 4) 和列联表资料(又称双向有序资料)。行×列表资料又包括单向有序资料(即等级资料,2 组或2 组以上,结果变量为有序多分类变量)。不同资料类型采用的统计分析方法有所不同。
四格表资料χ2 检验医学论文中,四格表资料χ2 检验的应用很常见,但使用时应注意具体的应用条件。当总例数大于40,且每个格子的理论频数均不小于5 时,应用未校正的χ2 检验;如果总例数大于40,有一个格子的理论频数小于5 但大于1,采用校正的χ2 检验; 如果总例数小于40,或有一个格子的理论频数小于1,则采用Fisher 确切概率法。实际应用中,许多作者不考虑应用的前题条件,均使用未校正的χ2 检验,从而导致结果不可靠。行×列表资料χ2 检验行×列表资料χ2 检验主要用于多个率或构成比的比较。但此时要求所有格子中理论频数小于5 的格子数少于总格子数的1/5。如果大于1/5 ,则相邻格子应删除或合并后再计算。此时若需了解具体那些率之间差异有统计学意义,就需进行χ2 分割来确定。
单向有序资料此类资料如果是比较组间治疗效果差异有无统计学意义,则应采用秩和检验。如果采用χ2 检验,仅表明各组的疗效构成差异有无统计学意义,因为此时只利用了每组构成比提供的信息,损失了有序指标提供的“等级”信息。这也是许多作者误用统计学方法的资料类型之一,需尤其注意。列联表资料χ2 检验此类资料特征为对同一组观察对象,分别观察其两种有序分类变量的表现,归纳成双向交叉排列的统计表,分析两个分类变量是否有相关联系的假设检验,采用行×列表χ2 检验。
3.3 相关性分析
如果需了解两变量有无相关性,或相关程度有多大,此时需作相关分析。相关分析应报告相关系数及对该相关系数所作的假设检验P 值。相关系数种类很多,选择时应根据指标类型来确定。如果是计量指标,则应选择Pearson 相关系数; 如果是等级指标,则应选择Spearman 相关系数。
3.4 结论的表述
首先要明确“P 值< 0.05”,习惯上称“显著”(significant) ,仅说明两组差异有统计学意义,并不能说明两组该指标相差很大,或在专业上有显著的(重要的)价值; 反之,P 值>0.05,习惯上称“不显著”(non significant) ,不应误解为相差不大,或一定相等,仅说明从统计角度考虑这两组差异无统计学意义[9]。为了不与一般意义上的“显著”、“不显著”相混淆,许多统计学家主张作结论时不用“是否显著”一词,而用“差异有无统计学意义”。此外,根据统计结果得出专业结论不能太绝对化,因为统计结论均是概率性的,不是绝对的肯定或否定,本次研究统计结果是阴性,如果增加样本含量,组间差异可能就有统计学意义了。综上所述,不同的统计分析方法均有其应用条件和适用范围,实际应用时,必须根据科研设计类型及变量类型选择恰当的统计分析方法,同时注意检查结果解释和专业结论是否同时满足专业和统计学要求。切忌将t 检验、χ2 检验视为分析资料的“万能工具”,盲目套用,导致文章的科学性降低。
医学论文常见统计学错误
1. 统计结论的描述不确切
数理统计的基础是概率论,对统计分析的资料下结论的依据是小概率事件在一次试验中是不可能发生的。一般统计上习惯把概率P≤0.05或P≤0.01认为是小概率事件。
一般统计上说的“差异显著”(P≤0.05),“差异非常显著”( P≤0.01)是统计学的术语,它不同于一般意义上的“显著”概念。
为了不至于混淆这两者的概念,现在统计学上主张用差异无显著意义或无统计意义、差异有显著意义或有统计意义、差异有非常显著意义或高度统计意义来代替以前常用的“差异不显著”、“差异显著”和“差异非常显著”。
下结论时,不仅根据统计学的结论,还要根据专业知识来判断。有的人只凭少量的统计资料就作出“有差异”、“无差异”的判断,并对所调查的数据下结论,是不科学的。而“有差异”、“无差异”这样的说法也是不对的。
例如调查吸烟者与不吸烟者的慢性气管炎的患病情况(P<0.01),只能说明吸烟者与不吸烟者患慢性气管炎差异有非常显著性意义,即吸烟者更容易患慢性气管炎,至于两者患病率相差是否显著,要结合专业知识来判断,而不能说非常显著。
2. 统计指标的误用
写作中,经常遇到统计指标的误用,常出现率与构成比,发病率与患病率,死亡率与病死率等的混淆。
2.1 把构成比当率 构成比是说明事物或现象内部各构成部分的比重,率为表示某种现象发生的频率或强度。它们都是相对数指标,用百分数表示。有一篇题为“某年某地5类传染病疫情分析”,该文作者认为,5类传染病的发病率依次为痢疾48.62%(3685/7579)、肝炎27.85%(2111/7579)、乙脑11.22%(850/7579)、流脑6.89%(522/7579)、麻疹5.42%(411/7579)。该资料是构成比,不是发病率,故犯了“以比代率”的错误。
2.2 发病率与患病率 发病率是指观察期内(年、季、月等)新发生某病的例数与同期平均人口数之比,强调在观察期内的新发病例数。而患病率则指观察时点的某病的现患病例数与该时点人口数之比,强调的是该观察时点上某病的现患(新、旧病例)情况。有人调查男性7674人,沙眼患者6235人,发病率为81.25%;女性调查2896人,沙眼患者2225人,发病率为76.83%。这显然是错误的,应该是患病率。发病率是指平均每1000人口中新发生的病例数。其计算公式为:某病发病率等于某年(期)内所发生的新病例数除以同年(期)平均人口数乘1000‰。例如某地某年年平均人口数为2500人,白喉发病28人,该地白喉年发病率为11.20‰。
3. 对照设计不合理
“有比较才能有鉴别”,设立对照组是为了科学地鉴别。医学科学研究设立对照尤为重要。一些科研论文科学性不强的主要原因是对照不合理,甚至有的根本不设对照组。临床上不少疾病,都有一定的自愈率,病情自行缓解的现象更为普遍,影响疾病过程的因素就更为复杂,除治疗因素外,精神、环境、休息、营养、气候等都对疾病发生影响。如果不通过严格对照试验,很难作出正确判断。
4. 样本选择不当
样本的选择要符合随机化的原则,这样才能使样本客观地反映总体。不少作者对随机化分组的意义和方法不够了解,有的交待了随机抽样,而没有交待抽样和分配的具体方法;有的虽知道随机化分组的原则,但因怕麻烦,而没有认真执行;有的甚至为了提高论文的刊用率,而冠以随机化的字眼。为解决上述问题,一般编辑部在审稿时要求作者补充研究对象随机化抽样和分配的具体方法。前者如单纯随机抽样、系统抽样、分层抽样、整群抽样等;后者如完全随机化设计、配对设计、配伍设计、拉丁方设计、序贯设计、正交试验设计等。
5. 随机分组不均衡
对照组与试验组必须遵循均衡化的原则,也就是说对照组除了缺少实验处理因素外,其它条件应与实验组基本一致,从而排除非处理因素对结果的影响。如果分组时未注意到对照组与实验组的均衡关系,那么对照组与实验组就会出现差异,使实验的可比性减少,统计学意义下降。
6. 非参数不能用参数统计方法
对计量资料的统计数据经常用t检验或F检验,但也经常出现把非参数计量资料的数据用参数统计方法进行处理。如微量元素(血铅、血锌、尿汞)等数据经常出现偏态分布。当数据呈偏态分布时小样本(n<50)不能用参数统计方法(t检验或F检验),而应该用非参数统计方法(参比差值法或秩和检验)或进行数据转换(倒数或对数)后用参数统计方法。
7. 统计表图不规范
在疾病防治中,我们使用大量的统计表图,以阐说疾病发生发展的客观规律,评价防治措施的效果。正确的统计表应该是简单、明了,能够说明各统计量之间关系和差异的三线式统计表。不宜过繁、过多,不能把几种不同性质的统计量罗列到同一表格内。
8.统计方法的选择与使用不正确
选用统计方法之前应首先确定是计数资料还是计量资料。
计数资料是先将观察单位按性质或类别进行分组,然后清点各观察单位的个数所得的资料,如根据治疗结果计算出的治愈率、有效率、病死率、阳性率等。
计量资料是对每个观察单位用定量方法测定某项指标数值大小所得的资料,如身高、体重、脉搏、血压、浓度、白细胞总数等。计数资料最常用的统计方法为χ2检验或U检验,计量资料最常用的统计方法为t检验(或F检验),但在来稿中时有发生相互混淆。
另外,应用t检验的条件是:①当样本含量较小时,要求样本符合或近似正态分布;②当两样本均数比较时,两样本方差相等;③当样本不符合正态分布时,应采用t’检验代替t检验;④当两样本方差不等时,应采用秩和检验或t’检验。有的作者在使用t检验时未考虑到上述因素而盲目使用。对于等级资料(如治愈、显效、好转、无效)要比较疗效只能用非参数检验。
医学论文统计学相关问题解析
(一)对照与均衡性测定 国内医学期刊有关临床疗效观察的文章甚多,不少杂志刊登了一些事先未设计对照的文章,其结论难以令人信服。如《用柴葛解肌汤治疗上呼吸感染》一文,报道治愈好转率为97.7%,因无对照,无法断定其效果如何,因此,治愈好转率中含有假像。 对照的方法虽有多种,但对照的基本原则是与实验组齐同可比,最好作均衡性测定。
(二)安慰剂与盲法试验 安慰剂与盲法试验是医研(主要是比较性研究)中常用的科研方法,结果准确、误差性小。安慰剂在形、量、色、味等要与实验药物一样,不能给受试者和执行者任何暗示。这种试验就是双盲法试验。但近年来,尚有人用改良的双盲法,此法分两期:第一期(公开期)试验有效者留,无效者弃。有效者进入第二期(双盲试验),以确定疗效是否系安慰剂的作用。在预防效果观察时可采用该法,临床上应用诸多困难,应视具体情况而定。
(三)样本含量与重复原则 没有足够样本的研究结果,是经不起重复试验的,有的论文凭少数病例观实的结果下结论,是不慎重的。如《重症肺炎并发DIC29例》一文,作者观察脑型患者3例,其中死亡一例,就得出“一般脑型病死率高达57%,本组脑型病死率较低,看来及早用肝素阻断DIC过程,对降低脑型病死率可能具有重要意义”的结论。因无对照,结论不可靠。
(四)随机分组与实验设计类型 随机化分组即每个实验对象有同等机会被抽样(分配)到各组去,而不受任何系统因素的影响。常用的实验设计类型有完全随机设计、自身对照设计、交义设计、配偶设计、随机区组设计、拉丁方设计、正文(析因)设计、序贯设计、半数效量实验设计(动物试验),回顾性与前赡性调查研究设计等。科研设计时应根据研究目的要求选择不同类型的实验设计方法,进行相应的统计处理。
(五)诊断与疗效标准——指标设计问题 观察对象应确诊无疑,事先要制订好诊断标准,保证样本的真实性与代表性。疗效判断要有科学的指标,有特异性和定量指标更好。研究记录表格扣记录要完整统一,仪器、试有等要核校,人员要相对稳定,操作及观察方法要严格执行统一标准。
医学统计学是人们认识客观世界的一种重要手段, 现代科技工作者做科学研究或撰写论文, 很少看到不用统计学。既然如此重要,我们就要加以重视。笔者以上分享了医学论文中正确应用统计学方法的相关内容和要点,希望大家看完能够有所收获。