中文  |  ENG
资讯

【共克时艰】临床研究知识不停学

临床研究数据统计分析


提问

Qustions

&

解答

Answers

为满足疫情期间大家对临床研究咨询的需求,临床研究中心上周推出了“免费在线咨询服务”,反响热烈,并获得众多临床研究同道的一致好评。为进一步满足广大研究者的需求,临床研究中心推出最新栏目——“统计知识问与答”,保证在疫情期间,临床研究知识不停学。

临床研究数据的统计分析,是众多研究者十分感兴趣但同时又存在很多困惑的问题。想要写出高分论文,一取决于研究课题是否有价值,二则取决于研究数据是否合理分析。如何正确、有效率地进行数据分析?数据分析到底有没有什么宝典?第一期的统计知识问与答栏目,我们先来谈谈数据分析的第一步—数据清理这个问题。

1

数据清理


您有没有下面的经历?

数据收集完毕直接进行统计分析, t检验、卡方检验、回归分析…点点菜单就可以出结果。老板催得紧,赶快分析出结果发文章,来不及看看数据长什么样,数据分析就是跟时间赛跑。

但其实一个完整的数据分析,最复杂、最耗费时间的步骤往往就是弄清楚数据长什么样,有没有不干净的地方,也就是数据清理。“garbage in, garbage out”的道理大家都懂,所以宁可慢一点,认真细致地做好数据清理。



数据清理主要做什么?

检查数据的完整性和合理性,也就是对缺失数据和离群值进行识别和处理。



缺失值怎么处理?

1) 不要随意删除有缺失数据的记录。

2) 对缺失值最好的处理方法是预防缺失的发生,即通过合理的研究设计、预试验、规范的项目管理和数据管理、调查员培训等方法尽量保证数据的完整性。

3) 缺失数据往往不可避免,处理方法是:先了解缺失的原因,尽可能找回原始数据。如果无法找回,则需要通过一些统计学方法来进行填补,常用的有以均值或中位数填补、末次观察前推法(Last observation carried forward,LOCF)和多重插补法(Multiple imputation)。


离群值如何识别和处理

主要的识别方法是直方图(落在直方图两端较远距离数据)和箱式图(距离第25百分位数Q1或第75百分位数Q3的距离是四分位数间距IQR的1.5-3倍为轻度离群值,距离Q1或Q3的距离大于IQR的3倍为极端离群值)。识别之后不要轻易删除,而是通过敏感性分析,即纳入和排除离群值观察其对分析结果的影响,并如实汇报。


更多关于数据清理的信息

敬请关注和参与临床研究中心系列讲座!


---来源:临床研究中心---

---编辑:邓家愉---

---审核:陈翔---