医学教育

临床研究常用统计方法的选择与误用

作者:复旦大学临床流行病学/循证医学中心 复旦大学附属中山医院 施鹏 来源:中国医学论坛报 日期:2011-11-28
导读

         随着国内外医学期刊越来越重视统计方法的正确应用,国内临床医生早已认识到医学统计学在临床研究中的重要作用。然而,部分临床医生对统计方法的选择还存在一定的困难,时常会出现误用统计方法的情况。本文对常用统计分析方法进行梳理,指出常见的错误,以帮助临床医生做出正确的选择。

关键字:  临床研究 | 统计 

  随着国内外医学期刊越来越重视统计方法的正确应用,国内临床医生早已认识到医学统计学在临床研究中的重要作用。然而,部分临床医生对统计方法的选择还存在一定的困难,时常会出现误用统计方法的情况。本文对常用统计分析方法进行梳理,指出常见的错误,以帮助临床医生做出正确的选择。

  统计分析的一个目的就是通过样本信息推论总体特征,分析单个或多个暴露变量和结局变量的关系。统计学将数据分为计量资料和分类资料两大类型。在随访研究中,还有一种数据为生存资料。

  统计分析方法主要根据结局变量的类型,综合考虑研究目的、设计类型及适用条件等因素进行选择。

  计量资料统计方法的选择

  计量资料是可测量、有计量单位的数据,反映的是数据“量”的特征。它可以是连续的,如身高(cm)、体重(kg)、血压(mmHg),也可以是离散的,如脉搏次数(次/分)、家庭人口数(个)。在结局变量为计量资料时,选择统计方法须考虑:① 结局变量是否满足参数检验的前提条件;② 暴露变量的数量和类型;③ 设计类型。

  参数检验要求定量资料应满足独立、正态分布和方差齐性的要求,通常有基于t分布作为假设检验依据的t检验,基于F分布的F检验(方差分析),不满足上述条件者则用非参数检验方法,如秩和检验。

  暴露变量为一个分类变量

  当暴露变量为一个分类变量时,为单因素设计,常见的设计类型有单组设计、两组的成组设计和配对设计及多组的完全随机设计。若满足参数检验条件,分别选用单样本t检验、成组两样本t检验、配对t检验及单因素多水平方差分析(one-way ANOVA);若不满足参数检验条件,分别选用Wilcoxon秩和检验(或Mann-Whitney U检验)、Wilcoxon符号秩和检验或Kruskal-Wallis H检验。

  常见错误 在做检验前,不对结局变量的分布和方差齐性进行检验,在不满足参数检验的前提条件下对定量资料盲目套用参数检验方法。

  错误举例

inserted image

  某项研究评价治疗前后膝关节功能(表1),从结果来看,部分指标的标准差是均数的2倍,提示呈偏态分布,而原作者用单因素方差分析检验治疗前后的功能得分。正确做法是,选用非参数检验的办法,这个研究是自身配对设计,可选用Wilcoxon符号秩和检验,或对结局变量进行变换,满足参数检验的要求。

  暴露变量为两个或多个分类变量

  当暴露变量为两个或多个分类变量时,为多因素设计,常见的设计类型有不考虑交互作用的完全随机区组设计及考虑交互作用的析因设计和重复测量设计。若满足参数检验条件,可分别选用完全随机区组的方差分析(two-way ANOVA)、析因设计的方差分析和重复测量设计的方差分析。

  常见错误 用单因素分析方法处理多因素设计的资料。

  错误举例

inserted image

  有的研究对于两因素的析因设计资料采用单因素的方差分析,比较4组的平均水平(表2)。该研究探讨硫化氢供体——硫氢化钠(NaHS)对大鼠高肺血流性肺动脉高压及内源性一氧化碳(CO)和血红素氧合酶(HO)的影响,有两个暴露变量(因素),分别有两个取值(水平)。一个暴露变量为是否穿刺(X1=1为穿刺,X1=0为不穿刺),另一个暴露变量为是否使用NaHS(X2=1为使用,X2=0为不使用),在考虑交互作用时为析因设计,应选用析因设计的方差分析。

  常见错误 对于重复测量设计的计量资料,有的研究误用单因素的方法,比较不同时间点组间的平均水平。

  错误举例

inserted image

  某研究探讨重型颅脑创伤患者硫酸镁治疗与患者血清丙二醛(MDA)含量及预后关系。治疗组和对照组患者分别在入院时、用药后24、48和72小时抽取静脉血,检测MDA浓度(表3)。原文采用成组t检验在不同时间点进行两组比较,割裂了整体设计,没有考虑到对于同一观测对象,不同时间点上的数据是不独立的。该研究可选用重复测量设计的方差分析。对于较复杂的重复测量设计资料,可选择混合模型(Mixedmodel)或广义估计方程(GEE)等方法进行分析。

  暴露变量为一个分类资料、一个计量资料

  当暴露变量一个为分类资料、一个为计量资料时,为带有协变量的计量资料,宜采用协方差分析,通过“修正”结局变量,比较不同分组结局变量平均水平。

  常见错误 用一般的单因素分析处理带有协变量的资料。

  错误举例

inserted image

  某项研究比较不同轻重程度阻塞性睡眠呼吸暂停综合征(OSAS) 患者体质指数(BMI)的平均水平(表4)。根据睡眠呼吸暂停低通气指数(AHI),将OSAS患者分为不同轻重程度的4组,另一个暴露变量为颈围(cm),颈围与BMI有关,且不同分组的颈围水平有所不同,宜用协方差分析,将颈围作为协变量,“修正”BMI后进行比较,不能简单用单因素的方差分析比较不同程度OSAS患者的BMI。

  暴露变量为一个计量资料

  当暴露变量为一个计量资料时,分析结局变量如何随暴露变量变化的时候选用简单线性回归,分析两个变量之间的关联强度和方向的时候选用相关分析。在分析前,须从专业上对两变量间的联系做出判断,并绘制散点图,直观判断两变量间是否呈线性变化趋势,然后再进行回归或相关分析。

  暴露变量为多个,既有分类又有连续变量

  当多个暴露变量既有分类变量也有连续变量时,可用多元线性回归分析,既可从众多暴露因素中选择有统计学意义的影响因素,又可校正混杂因素,分析主要研究的暴露因素。运用之前须注意线性回归分析的适用条件,通过残差分析,判断结局变量是否满足独立、正态分布和方差齐性的条件。

  分类资料统计方法的选择

  分类资料反映的是数据“质”上的特性,先定性分类,然后计数,常分为两分类资料(如生存或死亡)、有序多分类资料(如临床疗效:无效、好转、显效)及无序多分类资料(如ABO血型)三种。

  当结局变量为分类资料时,选择统计方法须考虑以下三点:① 列联表的类型;② 检查资料是否具备特定统计分析方法所要求的前提条件;③ 统计分析的目的。 

  暴露变量与结局变量均为两分类资料

  在暴露变量与结局变量均为两分类资料时,组成的结果为2×2列联表,根据不同设计类型,分为四格表资料和配对四格表资料,同时,根据样本量和格子内的理论值,选择不同的统计方法。对于四格表资料,当n>40时,格子中的理论值在(1,5) 之间,应选择校正的Pearson卡方,当n<40且格子中的理论值<1时,应选择Fisher精确卡方。对于配对四格表资料,应选用McNemar检验。

  常见错误 不顾设计类型和前提条件,将Pearson卡方作为万能工具。

  暴露变量和结局变量为多分类变量

  在暴露变量和结局变量为多分类变量时,组成的结果为R×C列联表,根据行和列是无序多分类资料还是有序多分类资料,分为双向无序、单向有序及双向有序三类,可选用CMH(Cochran-Mantel-Haenszel)卡方检验。CMH卡方检验的无效假设为行与列变量没有联系,备选假设有三种:① 一般相关(General correlation ),用于双向无序的资料,分析的是行变量和列变量之间有无关联,如ABO血型与胃溃疡、胃癌的关系;② 行平均得分差(Row Mean Differ),用于列变量单向有序资料,比较的是不同行之间在列上的得分,如比较不同地区高血压的严重程度;③ 非零相关(Nonzero Correlation),用于双向有序资料,分析的是行和列的趋势是否相关,如不同年龄分组(行)与冠状动脉狭窄程度(列)的关系。

  常见错误 用Pearson卡方检验分析有序变量的列联表资料。

  错误举例

inserted image

  某项研究探讨原发性肝癌肝动脉碘油化疗栓塞(TACE)和三维适形放疗(3DCRT)综合治疗价值(见表5)。原文将不同水平的疗效进行了合并,采用Pearson卡方检验比较两组的有效率分别为71%和45%,P值为0.0097,这样合并没有充分利用资料的有序信息;而若用2×C表卡方检验,P值为0.0827,没有考虑疗效的递减关系。所以,应选用CMH卡方检验行平均得分差的分析结果,P值为0.0160,才能做出正确的评价。

  暴露变量为多个、研究多个影响因素与多水平结局变量间的关系

  当暴露变量为多个、研究多个影响因素与多水平结局变量之间的关系时,选用logistic回归。根据研究设计不同,对于成组资料,选用非条件的logistic回归,对于配对资料,选用条件的logistic回归。其中,非条件的logistic回归根据结局变量的类型,可分为两分类反应变量的logistic回归、多分类有序反应变量的logistic回归和多分类无序反应变量的logistic回归。

  常见错误 用单因素分析处理多因素的问题,分别计算每个暴露变量与结局变量的关系,或用多元线性回归分析代替多分类反应变量的logistic回归,或不区分设计类型用非条件logistic回归处理配对设计资料。

  生存资料统计方法的选择

  生存资料的特征是在随访研究中,因失访等原因造成数据的删失,生存时间的信息不完全,又称截尾数据(censoring data)。

  当结局变量为生存资料时,宜选用生存分析,既考虑结果,又考虑生存时间,充分利用信息。

  当暴露变量为一个分类变量时,研究目的是比较两组(或多组)生存率差异是否有统计学意义,可选用Kaplan-Meier法进行Log-rank检验,一般不能用t检验或秩和检验。若暴露变量为多个变量,则可选用Cox比例风险回归模型(简称Cox回归),筛选影响因素或分析混杂因素,但其主要适用于随访资料,对于非随访资料是不适用的。

  例如,某项研究以最大通气量(MVV)为结局变量进行多因素分析,由于为非随访资料,既无生存时间也无风险率可言,即使通过软件计算出有“统计学意义”的暴露因素,也是错误的。该研究结局变量为计量资料,可考虑选用多元线性回归进行统计分析。

分享:

相关文章

评论

我要跟帖
发表
回复 小鸭梨
发表

copyright©金宝搏网站登录技巧 版权所有,未经许可不得复制、转载或镜像

京ICP证120392号  京公网安备110105007198  京ICP备10215607号-1  (京)网药械信息备字(2022)第00160号
//站内统计 //百度统计 //谷歌统计 //站长统计
*我要反馈: 姓    名: 邮    箱:
Baidu
map