中文  |  ENG
资讯

【分享】审稿人拷问:你控制混杂因素了吗?我:…


高高兴兴地写完一篇 SCI,投稿,苦苦等待好久,却只等来审稿人的一句话:你有控制研究的混杂因素(Confounder)吗?

额,什么是混杂因素?又该如何控制?

其实,混杂因素的控制在研究设计阶段就应该注意。

今天,笔者就从「什么是混杂因素」、「为什么要控制混杂因素」以及「该如何控制混杂因素」,这三方面来分享一下。


1、什么是混杂因素?

混杂因素,指的是除了研究因素以外,其他所有可能会影响结局的因素(包括已知和未知的)

混杂因素与结局事件、暴露/处理因素有关,但不是暴露/处理因素与结局事件的中间变量。

如,研究高血压与死亡风险之间的关系。糖尿病就可作为其混杂因素,糖尿病与高血压、死亡都可能有关,但不可以说高血压导致糖尿病从而引起死亡。

图片来源:自己做的


2、控制混杂因素的意义?

保证研究结果的真实性与可靠性,就是控制混杂因素的最大意义。

为什么 RCT 的证据等级比观察性研究高?一个重要的原因就是 RCT 通过随机分组,有效的控制了混杂因素,减少了混杂偏倚,使得组间的基线情况均衡。


3、如何控制混杂因素?

3.1  分层分析

分层分析是最为常见的,也是最容易理解的一种控制混杂的方式。

其流程归纳为四步:

1)计算原始效应值(OR 或 RR)

2)根据混杂因素分层,判断分层效应值间是否一致;

3)若一致,比较合并后的效应值与原始的效应值之间是否有统计学意义;

4)若不一致,分层报告效应值。

需注意,分层分析与亚组分析略有不同,亚组分析不计算合并后的效应值,主要是对比分层之间的效应值。

局限性:

一般只能针对一个混杂因素进行分析,混杂因素过多时,会产生过多分层,导致每层之间的样本量太少,降低结果的可靠性。所以,不适合过多混杂因素时使用。

3.2  多因素分析

多因素分析能够同时分析多个因素对结局的影响。最常使用的三种回归模型为:多重线性回归、logistic 回归及 Cox 回归。

实际应用时常见问题如下:

1)既然有多因素分析,是不是可以把全部的混杂因素都纳入多因素分析?

不可以。

纳入混杂因素越多,所需要的结局事件例数就越多,对于 logistic 回归和 Cox 回归,结局事件则应至少为 15-20 倍的自变量个数。

建议最好分析前尽量明确哪些可能是混杂因素,而不是一股脑的全分析。

2)可以把单因素分析中 P 值小于 0.05 的自变量全纳入多因素分析吗?

视情况而定。

若 P 值小于 0.05 的自变量数量不多,且结局事件够多,可以这样操作。

若结局事件不多,P 值小于 0.05 的自变量数量又比较多,建议将临床意义大、与结局事件密切相关的因素纳入分析。

3)这三种回归模型如何应用?

Cox 回归用于二分类变量和生存时间变量(预后分析),logistic 回归用于分类变量,多重线性回归用于连续变量。

局限性:纳入的混杂因素数量受结局事件例数影响。

3.3 倾向性分析

这个方法很热门,入门也不难,很建议大家去学一学!

简单来说,就是将多个混杂因素进行处理,计算出一个综合的倾向值(Propensity Score, PS),然后根据这个倾向值进行匹配。

该方法的优势在于用一个综合的分值来替代多个混杂因素,减少自变量个数,克服分层分析和多因素分析中对于自变量数量的限制。

本人是将其理解为高考总分,计算语数英+文综/理综的总分,然后找一个总分相近的人进行匹配,比较的是综合的分数,而不是每一科的分数。

这里面还有一个重要的概念就是卡钳值(Caliper),即 PS 相差多少以内可以进行匹配。

卡钳值越大,匹配成功的数量越多,但是组间均衡性会变弱。反之,卡钳值越小,组间均衡性会增强,但匹配成功的数量越少。合适的卡钳值一般为 0.02 或 0.03(并不是绝对的)。匹配的比例一般为 1:1 或 1:2。

除了上述传统的倾向性评分匹配以外,还有三种高阶版的方法:倾向性评分分层法、倾向性评分校正法、倾向性评分加权法。这里就不予详细介绍了。

方法要一点一点学,一口气学太多容易混乱。

有了分层分析、多因素分析及倾向性分析这三大法宝,再也不用担心混杂因素的干扰了。

最后用一句话与各位看官共勉:

图片来源:自己做的