中文  |  ENG
资讯

【干货】临床研究数据分析入门秘笈(二)

临床研究数据统计分析(二)

我的数据清理完了,终于可以开始做统计分析了……别急别急!我们都知道厨师做菜之前先要了解每个食材的特点,做数据分析也是一样的。在分析之前,我们需要做一项重要的准备工作:观察了解你的数据的特征,主要包括数据的频数分布、集中趋势、离散程度、分布形状、正态性和相关性几方面。

2

数据观察


1.频数分布

通常用频数(百分比)描述分类数据。在数据的预处理部分,利用频数分析和交叉频数分析可以检验异常值。



2.集中趋势

(1)均数:常用算数平均数,易受极端数据的影响,因此当数据不服从正态分布时,不建议采用均数描述。

(2)众数:是指在频数分布中出现次数最多的那个数据的数值。

(3)中位数:中位数不受极端值影响,序列居中的几个数据决定了中位数的大小,因此当数据离散程度大,不服从正态分布时,建议采用中位数和四分位区间描述数据。



3.离散程度

(1)方差和标准差:方差和标准差是表示一组数据离散程度的指标,其值越大,说明离散程度大。

(2)四分位间距

第一四分位数(Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数值。

第二四分位数(Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数值。

第三四分位数(Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数值。

Q3与Q1的差距又称四分位间距。四分位间距通常是用来构建箱形图。对一个对称性分布数据,其中位数等于第三四分位数与第一四分位数的算术平均数。



4.分布形状

(1)偏度(Skewness)

  • 如果偏度小于-1或大于1,则分布高度偏斜。

  • 如果偏度在-1到-0.5之间或在0.5到1之间,则分布适度偏斜。

  • 如果偏度在-0.5到0.5之间,则分布近似对称。

Symmetrical Dataset with Skewness = 0

Dataset with Positive Skewness

Dataset with Negative Skewness

(2)峰度(kurtosis)

峰度接近 3视为正态分布


5.正态性

通过分布图和正态检验来检查数据的正态性

(1)分布图

   i. 直方图

常用的直方图可以帮助你很好地知道数据是否符合正态假设。如果你的数据看起来像一个钟形曲线,那么它可能是正常的。

     ii.   箱图

如果数据符合正态分布,那么均值和中位数在方框的中心对称轴位置重合或者很接近,同时应该有很少量的异常值。


iii.   P-P plot

如果数据呈正态分布,P-P图上的数据点形成一条线。

iv.   Q-Q plot

如果数据呈正态分布,则这些Q-Q图上的数据点将落在45度的参考线上。


   (2)正态检验

常用的正态检验包括Kolmogorov-Smirnov (K-S) test和Shapiro-Wilk (S-W) test.

上图显示了SPSS运行正态检验的结果。检验假设:

H0:总体服从正态分布, H1:总体不服从正态分布。

S-W检验适用于小样本数据(<2000), 否则采用K-S检验. 

如果显著性水平为0.05,当检验得到的P值大于0.05时,没有充分的证据拒绝H0假设, 从而说明该数据服从正态分布。

就正态性检验而言,图示是最直接也是最可靠的方法,直方图是最常用的,一旦视觉上认为是正态的就可以。


6.相关性

   (1) 散点图

  • 变量之间是否存在数量关联趋势

  • 如果存在关联趋势,是线性还是曲线的

  • 如果有某一个点或者某几个点偏离大多数点,也就是离群值,通过散点图可以一目了然。从而可以进一步分析这些离群值是否可能在建模分析中对总体产生很大影响。

   (2) 局部加权平滑散点图(Lowess plot)

局部加权回归散点平滑法(locally weighted scatterplot smoothing,LOWESS或LOESS)是查看二维变量之间关系的一个有力工具。回归中最简单的线性回归,是以线性的方法拟合出数据的趋势。但是对于有周期性,波动性的数据,并不能简单以线性的方式拟合,否则会偏差较大,而局部加权回归能较好的处理这种问题,可以拟合出一条符合整体趋势的线。

小结:在充分了解的数据特征之后,就可以根据数据特征来选择相对应的形式和方法来描述和分析数据了。例如:分类变量报告频数(百分比);对于连续变量,如满足正态分布则报告均值(标准差),如不满足正态分布则报告中位数(四分位区间,IQR);数据服从正态分布是一些常规统计方法必须满足的假设:t检验、方差分析、线性回归等;两个连续变量的相关趋势是否呈线性是能否采用各种线性回归的决定因素之一。因此,做统计分析前先观察数据,这一步必不可少!




往期回顾:临床研究数据分析入门秘笈(一)

更多关于数据清理的信息

敬请关注和参与临床研究中心系列讲座!


---来源:临床研究中心---

---编辑:邓家愉---

---审核:陈翔---