资讯

【分享】审稿人拷问：你控制混杂因素了吗？我：…

高高兴兴地写完一篇 SCI，投稿，苦苦等待好久，却只等来审稿人的一句话：你有控制研究的混杂因素（Confounder）吗？

额，什么是混杂因素？又该如何控制？

其实，混杂因素的控制在研究设计阶段就应该注意。

今天，笔者就从「什么是混杂因素」、「为什么要控制混杂因素」以及「该如何控制混杂因素」，这三方面来分享一下。

1、什么是混杂因素？

混杂因素，指的是除了研究因素以外，其他所有可能会影响结局的因素（包括已知和未知的）。

混杂因素与结局事件、暴露/处理因素有关，但不是暴露/处理因素与结局事件的中间变量。

如，研究高血压与死亡风险之间的关系。糖尿病就可作为其混杂因素，糖尿病与高血压、死亡都可能有关，但不可以说高血压导致糖尿病从而引起死亡。

图片来源：自己做的

2、控制混杂因素的意义？

保证研究结果的真实性与可靠性，就是控制混杂因素的最大意义。

为什么 RCT 的证据等级比观察性研究高？一个重要的原因就是 RCT 通过随机分组，有效的控制了混杂因素，减少了混杂偏倚，使得组间的基线情况均衡。

3、如何控制混杂因素？

3.1 分层分析

分层分析是最为常见的，也是最容易理解的一种控制混杂的方式。

其流程归纳为四步：

1）计算原始效应值（OR 或 RR）；

2）根据混杂因素分层，判断分层效应值间是否一致；

3）若一致，比较合并后的效应值与原始的效应值之间是否有统计学意义；

4）若不一致，分层报告效应值。

需注意，分层分析与亚组分析略有不同，亚组分析不计算合并后的效应值，主要是对比分层之间的效应值。

局限性：

一般只能针对一个混杂因素进行分析，混杂因素过多时，会产生过多分层，导致每层之间的样本量太少，降低结果的可靠性。所以，不适合过多混杂因素时使用。

3.2 多因素分析

多因素分析能够同时分析多个因素对结局的影响。最常使用的三种回归模型为：多重线性回归、logistic 回归及 Cox 回归。

实际应用时常见问题如下：

1）既然有多因素分析，是不是可以把全部的混杂因素都纳入多因素分析？

不可以。

纳入混杂因素越多，所需要的结局事件例数就越多，对于 logistic 回归和 Cox 回归，结局事件则应至少为 15-20 倍的自变量个数。

建议最好分析前尽量明确哪些可能是混杂因素，而不是一股脑的全分析。

2）可以把单因素分析中 P 值小于 0.05 的自变量全纳入多因素分析吗？

视情况而定。

若 P 值小于 0.05 的自变量数量不多，且结局事件够多，可以这样操作。

若结局事件不多，P 值小于 0.05 的自变量数量又比较多，建议将临床意义大、与结局事件密切相关的因素纳入分析。

3）这三种回归模型如何应用？

Cox 回归用于二分类变量和生存时间变量（预后分析），logistic 回归用于分类变量，多重线性回归用于连续变量。

局限性：纳入的混杂因素数量受结局事件例数影响。

3.3 倾向性分析

这个方法很热门，入门也不难，很建议大家去学一学！

简单来说，就是将多个混杂因素进行处理，计算出一个综合的倾向值（Propensity Score, PS），然后根据这个倾向值进行匹配。

该方法的优势在于用一个综合的分值来替代多个混杂因素，减少自变量个数，克服分层分析和多因素分析中对于自变量数量的限制。

本人是将其理解为高考总分，计算语数英+文综/理综的总分，然后找一个总分相近的人进行匹配，比较的是综合的分数，而不是每一科的分数。

这里面还有一个重要的概念就是卡钳值（Caliper），即 PS 相差多少以内可以进行匹配。

卡钳值越大，匹配成功的数量越多，但是组间均衡性会变弱。反之，卡钳值越小，组间均衡性会增强，但匹配成功的数量越少。合适的卡钳值一般为 0.02 或 0.03（并不是绝对的）。匹配的比例一般为 1:1 或 1:2。

除了上述传统的倾向性评分匹配以外，还有三种高阶版的方法：倾向性评分分层法、倾向性评分校正法、倾向性评分加权法。这里就不予详细介绍了。

方法要一点一点学，一口气学太多容易混乱。

有了分层分析、多因素分析及倾向性分析这三大法宝，再也不用担心混杂因素的干扰了。

最后用一句话与各位看官共勉：

图片来源：自己做的