中文  |  ENG
资讯

【信息】临床研究中的多重检验

  继PSM方法之后,我们一起来学习多重检验。多重检验的问题在临床研究中并不少见。研究中若具有多个研究终点、需要比较不同治疗组间的差异、分析多个结果以及对同一结果在不同时间的多次分析等,都需要进行多重检验,然而多次的假设检验会增大犯Ⅰ类错误的风险,从而导致试验结果的不准确性[1]。只有部分文章在多重检验中进行校正以减少类错误的概率,且大部分作者没有说明进行校正的理由。多重检验是较复杂的统计学问题,这里尝试简单地解释其中的基本原理。

(图片来自BMJ 1998)


1

总体错误率



 当在单个的假设检验中,我们会预先确定好显著性水平α(通常取0.05),这是在此次检验中会得到假阳性结果的风险,以便控制好Ⅰ类错误的发生概率。换句话来说,研究者会控制单次检验中可能出现假阳性结果的概率在5%。 

 与单个假设检验类似,若同时检验多个假设时,控制好类错误的概率也是主要的任务。举个例子,研究中有k个假设,每个假设都是相互独立的,显著性水平是α,那就意味着如果进行k次假设检验,那么不犯类错误的概率是(1-αk,则至少犯一次类错误的概率是1-1-αk。而总体错误率(familywise error rate, FWER)也指的是1-1-αk。而且当k不断增加,(1-αk趋向于01-1-αk趋向于1,所以我们必须通过多重检验校正控制类错误的发生。



(图1:当α=0.05时,y=(1-0.05)k,z=1-(1-0.05k。随着k的增加,y和z发生变化。)


 为了使FWER达到0.05,那么每次多重检验中显著性水平都必须低于0.05,即1-1-αk中的α低于0.05。而Bonferroni校正就是通过调整显著性水平来控制多重检验中犯I类错误的概率,公式为α’=α/k



2

进行多重检验校正的情况



2.1 多个治疗组

       随机对照试验中通常会设置多个试验组与对照组进行比较,意味着要在多组试验组之间要进行多次比较,同时也要考虑不同干预之间的交互作用,那么这时候可能需要考虑多重检验校正,以避免类错误的增加。

2.2 亚组分析

       临床试验中除了对不同干预手段进行分组外,还可以根据性别、年龄、是否存在合并症或疾病严重程度进行分组,以确定总体试验结果是否适用于所有符合条件的患者,或者不同分组间的干预效果是否存在差异,因此需要考虑多重检验校正。

2.3 相同结果的重复测量

       在不同时间重复检验相同结果也会增加犯Ⅰ类错误的风险。临床研究中,通常在不同治疗组中对受试人群按照一定的时间间隔进行重复测量,目的是观察不同治疗方式随时间变化的趋势。对于不同治疗组,研究者反复测量血压、药物清除率、抑郁或疼痛评分等结局时,注意多重检验造成Ⅰ类错误的增加。

2.4 多个研究结局

       临床试验通常是通过评估多种研究结局(或“研究终点”)来判断试验的效果。例如在心血管试验中,感兴趣的结局可能包括住院、中风、心力衰竭、心肌梗塞、心脏骤停、残疾和死亡。如果我们以5%的显著性水平分别检验每个研究结局,那么FWER会高于5%,此时应调整分析方案。

2.5 多次中期分析

       在临床研究中通常需要进行长期监测,即在不同的时间对同一结局进行多次分析,目的是为了确定是否提前终止试验,出现的原因可能是新的治疗方法与对照组之间存在显著差异或造成严重的不良事件。进行多次分析需要对各阶段积累的数据进行反复比较,从而增加了犯类错误的风险。

2.6 探索性研究和验证性研究

       验证性研究(如随机对照试验)是检验预先确定的关键假设,需要确定合适的样本量进行数据收集和分析,必要时需进行多重检验校正,为研究提供有效可信的证据。而探索性研究(如观察性研究、期或期临床试验早期)是进行新干预措施之前的早期研究,可以说是发现假设的一个过程,探索性研究的结果后期需要进行验证性研究进一步检验,因此,探索性研究不要求进行多重检验校正。



3

多重检验校正的方法



 多重检验校正有很多种方法。其中最简单,最经典的方法是基于P值的Bonferroni校正。在此方法中,每次检验的显著性水平都是α/ k,其中k是检验次数,α指的是原先的显著性水平,这样可以保证这一组假设总体犯类错误的风险在α之内。然而,Bonferroni校正总是以牺牲检验效能(1-β)来保证FWER,此时若要维持类错误在合理的水平,就需要增加样本量[2]

 此外,Benjamini-Hochberg(简称BH)也是多重检验校正的基本方法,而此方法是基于错误发现率(false discovery rate, FDR)基础上的控制方法[3]FDR指的是多重检验中错误拒绝原假设(拒绝真的原假设,即犯类错误)的个数占所有被拒绝的原假设个数的比例的期望值,像FWER一样,是另外一种衡量多重检验中可能犯Ⅰ类错误概率的方法。BH法过程较复杂,步骤如下:(1)将原始mP值升序排序,排序后表示为P1P2……Pm;(2)(i / m*q计算每个P值的BH临界值,其中iP值等级,m是检验次数,qFDR(自由取值,通常≤0.05);(3)排序后的P值与BH值进行比较,找到小于或等于临界值的最大原始P值,此时对应排序等级为J,记为PJ,则PJ ≤(J/m*q;(4)拒绝所有等级在PJ之前及PJ(即1iJ)对应的原假设,接受这些原假设对应的备择假设,即认为差异具有统计学意义[3]

 

1Benjamini-Hochberg法、Bonferroni法校正后及未校正前的多重检验(m=10FDR=q=0.05,α=0.05

  其中,“是”表示拒绝原假设,“否”表示不拒绝原假设;i/m*q 表示BH临界值,P4=0.013就是我们寻找的PJ


 实际上,BH法相当于对排序后的假设重新确定了不同的显著性水平(实际上相当于临界值),随着等级i的不断增加,重新确定的显著性水平(临界值)也不断增加[4]。相对于Bonferroni法中显著性水平一直是α/k来说,BH法拒接原假设的标准显得不过于保守。这样就能从统计学上保证FDR不超过α,从而保证多重检验整体犯I类错误的概率低于预先设定的显著性水平α



4

结语



 虽然两种方法都是用于多重检验中控制类错误的发生,但两者之间仍有区别。Bonferroni校正方法虽简单,但过于严格,灵敏度不高,难以比较出不同组别之间的差异;用于控制FDR的BH方法会基于每个P值进行校正,显得更加灵活,且提高了检验效能。实际上,多重检验问题会存在不同的复杂情况,如研究方案中多个治疗组、多个研究结局和多次中期分析并存等,那么多重检验校正就更具有挑战性,简单的BonferroniBH方法并不能解决问题,需要更复杂的统计方法[5]

        当研究者发表研究结果时,为了保持统计结果与结论的一致性以避免误导读者,应该清楚地认识多重检验校正的重要性,并应解释校正的原因。



参考文献:
[1]  LI G, TALJAARD M, Van den HEUVEL E R, et al. An introduction to multiplicity issues in clinical trials: the what, why, when and how[J]. Int J Epidemiol, 2017,46(2): 746-755.
[2] PERNEGER T V. What's wrong with Bonferroni adjustments[J]. BMJ, 1998,316(7139): 1236-1238.
[3] GLICKMAN M E, RAO S R, SCHULTZ M R. False discovery rate control is a recommended alternative to Bonferroni-type adjustments in health studies[J]. J Clin Epidemiol, 2014,67(8): 850-857.
[4]  JONES H E, OHLSSEN D I, SPIEGELHALTER D J. Use of the false discovery ratewhen comparing multiple health care providers[J]. J Clin Epidemiol, 2008,61(3): 232-240.
[5] ALOSH M, BRETZ F, HUQUE M. Advanced multiplicity adjustment methods in clinical trials[J]. Stat Med, 2014,33(4): 693-713.