很多统计初学者,经常后台问松哥,“我的数据不符合正态分布怎么办?是不是不能用均数±标准差表示啦?是不是不能用参数检验啦!” 其实正态分布是一个原则性要求,啥叫原则性要求,就是最好符合,真不符合,稍微偏一点也行。 就像我们领导开会要求不能迟到,但是真迟到一点也没多大事,是不是!但不能太不像话,散会时你才来,那就不合适了。 正态性检验目前至少有10种方法,其实这并不是代表欣欣向荣,反而代表正态性目前还没有一个金标准。关于正态性,其实图示比检验P值更好!尤其在样本量相对较大时。如下X33变量,直方图显示明显偏态分布。此时采用均数±标准差不太合适,可以采用M(Q),组间M(Q)比较可以采用非参数检验,这些都没有问题。
但是,如果进行多因素分析,做回归模型,那么采用M(Q)的数据就不适合直接进行模型。因为模型中的数值变量最好符合正态/对称分布。
图1 X33直方图,明显右侧头尾,还有个别异常值
我们对于这种右偏态分布,只要取对数基本就可以达到近似对称分布。如下就是Ln(X33)。对Ln(X33)制作直方图,发现对称性已经尚可了。图2 Ln变换后X33
对于上图,如果继续做正态性检验,基本还是P<0.05,也就是还是不符合正态分布,但是通过图示,已经显示基本对称分布了。这样的数据也是可以用均数±标准差展示的。 统计描述指标采用M(Q),统计描述作图的话可以制作箱式图,箱式图为5量统计法,包含的信息更优于直方图。组间比较也可以采用箱式图。组间比较,只能采用针对中位数和秩均值的非参数检验方法。 (2)对于正态或近似正态:统计描述指标采用均数±标准差表示;统计描述作图采用直方图;组间比较作图采用柱状图或者条形图。 (3)前面两点只包括的统计学的初级统计(统计描述)和中级统计(统计检验),没有涉及高级找关系(统计建模)。构建统计模型时,数值变量X原则上应该符合正态分布。因此对于近似或正态分布,可以直接进入;但是对于明显偏态,不能直接进入。需要对数据进行相应的变换才可以。常见的变换包括取对数,根号,倒数等等。
---统计思维与理论系列--- 【1084.】哎呦妈呀!几何均数还有标准差呀?书中从来没说过呀!
【1083.】交叉验证是啥个意思,是换妻游戏吗?
【1082.】不懂统计思维的统计是没有灵魂的!
【1081.】造假大识别,这种假都敢造! 【1080.】辨析丨啥?统计上还有q值,和P值啥关系? 【1079.】这种造假方式,您能识别吗?
【1078.】SCI相关分析比中文正规的3点理由
【1077.】临床科研设计与数据分析9大易忽视错误(推荐)
【1076.】这种套路可以学,怎么化无意义为有意义!
【1075.】很有意思的一个统计问题,并发症到底该如何分析? 【1074.】一文了解主流统计软件
【1073.】WHAT!计算机随机序列竟然是伪随机
【1072.】单因素Logistic回归变量筛选,你还在用表表达,看看人家如何可视化的,审稿人看了能不开心吗? 【1071.】SCI论文中回归模型样本量确定标准,建议阅读
【1070.】性别和吸烟是专业公认的危险因素,为啥多因素分析性别没意义了? 【1069.】数值变量应该以何种形式进入模型 【1068.】多项分类变量进入模型的正确姿势
【1067.】这种随意拆分的错误不能犯
【1066.】SCI统计方法写作秘籍 【1065.】这篇SCI论文10个统计问题辨析
【1064.】以前认为概念无所谓,其实松哥错了 【1063.】松哥,我发现一处SCI统计错误,非常荒谬! 【1062.】分类变量哑变量设置后,参照到底如何选择? 【1061.】这篇SCI的诊断试验结果看不懂,他到底是咋比的 【1060.】如何向统计老师咨询统计问题的正确姿势
【1059.】生存分析单因素筛选的困惑
【1058.】4种最常用的统计设计解读
【1057.】SPSS统计软件学习终身不忘之必杀技
【1056.】回归家族的书剑恩仇录,高手进阶必经之路 【1055.】单因素是危险因素,多因素却保护因素了,想逆天吗? 【1054.】这种文章统计套路您一定要学,不管你什么专业通杀 【1053.】这个空白对照到底要不要加? 【1052.】同一肝癌患者,同时接受CT、超声和磁共振,如何分析? 【1051.】来自临床真实问题,有点意思,松哥荐读! 【1050.】知道两组数据的样本量均数标准差,怎么算合并统计量呢? 【1049.】meta分析软件Revman5.3卡死解决方案 【1048.】P>0.05,本身就是没意义还是样本量不够? 【1047.】两因素方差分析,如何判断哪个因素对结果影响较大?
【1046.】带基线数据数值变量如何进行统计分析辨析 【1045.】统计学习之最大困惑!! 【1044.】松哥为啥我318样本量统计分析出来确实400样本量? 【1043.】这两个是啥图?区别和联系 【1042.】变量之间到底是单项转化还是双向转化 【1041.】统计水平自我评估表
【1040.】基线分析的3个终极目的 【1039.】统计小白的学习路径 【1038.】SCI论文中Logistic回归模型“门当户对”原则,松哥心得推荐给您 【1037.】被我们忽视的生存分析区间删失数据 【1036.】Logistic回归文章的SCI审稿人意见解读 【1035.】统计学上的2K效应,你发现了没? 【1034.】正态分布的3个基因密码,聆听大自然心跳的代码!
【1033.】生存分析K-M法与COX回归结论不一致怎么办? 【1032.】异常值的处理只有删除? 【1031.】没有比较就没有伤害,让咱们互相伤害吧,教你4大类统计伤害方法
【1030.】SCI审稿人让我控制2个单因素无意义的变量?
【1029.】量表评价是信度重要还是效度重要?
【1028.】Meta分析要解决的首要任务
【1027.】文章材料与方法中统计方法如何描述
【1026.】这个到底是啥统计设计?一起来看看!
【1025.】聚类分析稳定性判别的经验总结 【1024.】“参数检验与非参数检验”哪个更好? 【1023.】干预前后数据统计分析方法
【1022.】听完四个小故事,你就明白主成分分析是啥意思了! 【1021.】方差分析P>0.05,两两比较LSD法P<0.05,这可咋整?
【1020.】等级与等比,可得分清楚!
【1019.】频率与概率,如胶又似漆!
【1018.】终于发现不用学习,顿悟统计的方法 【1017.】倾向性评分后数据,应该采用配对设计还是成组设计?
【1016.】统计必学的4个核心思想
【1015.】加权最小二乘回归是什么鬼?
【1014.】平行性检验到底应该啥时候做? 【1013】统计的4维空间(一维一层天) 【1012】到底做相关?还是方差分析呢?
【1011】这篇文章凭啥这样分组呢? 【1010】常用统计分析方法选择图解
【1009】P<0.05也别理直气壮,统计也会犯错,还分犯I类和II类错误? 【1008】文章鉴析:这篇文章或许有10处不适!
【1007】R×C卡方的Fisher确切概率法为什么会有卡方值
【1006】大小优指标如何同时制作ROC曲线[经验技巧]
【1005】统计方法与统计思想谁重要? 【1004】别说相关太简单,且听松哥说相关
【1003】正态分布10种鉴别方法汇总【荐藏】
【1002】连续变量变成等级变量后,原来有意义的变量变得没意义了?
【1001】SCI论文中的P for trend是什么鬼?为什么高分文章经常采用呢 ------------------------------
|