本课程是高校医学统计学教授的公益、免费公开课!如假包换!我将每天推送视频和文字教程,讲授基于医学数据的各种统计分析策略。如果你能跟得上节奏,我相信在一个月后,您将会掌握医学数据分析方法。2. 课程所需的SPSS全套视频、数据库、讲义下载如果您真的能够坚持,发送关键词“打卡”,加入微信学习群吧。骗人?不存在的。你们能够学会医学统计学,我将视为这是一种成就。 Day 4: 两样本秩和检验 1. 微信群内视频1段“秩和检验”(18分钟)
2. 公众号推文1篇:D4
3. 微信群内测试题 4. SPSS 秩和检验实操练习与群内讨论 请务必先观看视频,再看本推文再测试,否则效果不佳! 欢迎加入高校公益免费群全面学习医学统计学与SPSS应用(发送关键词“打卡”到公众号)
之前文章已经介绍过,非参数检验是参数检验重要的补充。秩和检验是非参数检验的重要方法。两组定量数据的比较,主要的方法有两种。一种是t检验,一种是属于非参数检验的秩和检验(Wilcoxon 秩和检验)。一般来说两样本秩和检验是t检验的补充,当t检验条件不符合,特别是达不到正态或者近似正态分布的条件时,可考虑过两样本秩和检验。假设检验分为两种,一种称之为参数检验(parameter test),另外一种是非参数检验(Non-parameter test)。参数检验:以特定的总体分布(如正态分布)作为前提,对其总体参数作假设检验。比如: t 检验和 F 检验。非参数检验:对总体分布不作严格假定,又称任意分布检验,它直接对总体分布作假设检验,可能是分布轮廓,也可能是分布位置。非参数检验在我们课程中提到的主要是两类,一类是秩和检验,还有一类是卡方检验。它不依赖于总体分布的具体形式,应用时可以不考虑被研究对象为何种分布以及分布是否以知,实用性较强 。秩和检验为非参数检验方法中的一类,包括用于配对设计研究的符合秩和检验,用于两组独立样本的两样本秩和检验,用于多个样本的多样本秩和检验。主要主要以秩次为基础的研究。秩次(rank)指的是将数值变量值或等级变量值按一定顺序(一般是从小到大)所排列的序号,通俗理解也就是排名。秩和(rank sum)的意思是秩次之和。因此秩和检验就是比较两组数据的排名有没差别。两样本秩和检验,又称成组2样本秩和检验或者两独立样本秩和检验,英文为Wilcoxon Mann-Whitney 检验,是Wilcoxon Mann Whitney 三人证明,可简写为Wilcoxon检验,或者W M-W检验,或者Mann Whitney U检验。举例:若比较医学统计学班级男生成绩好还是女生好。此时,有两种方法,一种是分别计算男生的平均值和女生的平均值,那么这就是t检验;另外一种将所有人成绩从高到底进行排名,求出男生排名的总和和女生排名的总和,再除以各自人数得到平均排名,最后是平均排名越小,说明成绩越好,这便是秩和检验。某研究者将小鼠随机分为两组,观察局部加热治疗小鼠移植肿瘤的疗效,以生存时间(日)作为观察指标,实验结果见下表,试检验两组小鼠生存日数有无差别?数据集见rat.sav 局部加热组:10,12,15, 15, 15,16,20,23 30,40 空白对照组:2,3, 3, 3,4, 4, 4,6,9,11,12,14 本案例属于随机对照的实验性研究。主要研究的结局指标是生存时间,为定量变量数据;比较的组数是两组(局部加热组和空白对照组)。本案例目的是比较两组总体生存时间分布位置有无统计学差异。两组定量数据的比较,主要的方法有两种。一种是成组两样本t检验,一种是非参数秩和检验(Wilcoxon 两样本秩和检验)。一般来说,秩和检验是t检验的补充,如果t检验不适合,就会考虑秩和检验。所以统计分析时,要考虑t检验是否合适?条件是否满足?t检验要求的两组、定量、独立、方差齐、正态的数据比较。前面3个要求与Wilcoxon 两样本秩和检验相同,关键的差别在于t检验要求数据符合正态性。若不满足,应该考虑秩和检验(方差齐性不满足,仍可以考虑校正t检验)。采用多样本正态性检验方法,探讨各组是否均来自于正态分布总体。具体SPSS方法可见Day 2-1 正态性检验一讲。结果分析如下:经SW检验,结果为:局部加热组P=0.063,空白对照组体重P=0.028,两组数据正态性不全符合(直方图显示偏态严重),秩和检验方法是更合适的方法。本日软件操作的SPSS数据库是rat.sav,加入课程群即可获得。分析—非参数检验--旧对话框--2个独立样本 “检验变量”放入生存日期(time),“分组变量”放入分组(group),同时进行“定义组”。①检验类型:曼-惠特尼(Mann-Whitney),即为最常见的Wilcoxon Mann-Whitney 两样本秩和检验 ②检验变量:即放入结局指标,本例为生存日期(time)③分组变量:放入group。这里“定义组”需要进一步明确,见下图:定义组:即指定比较哪两组。在本例,我们比较高蛋白和低蛋白组,他们在数据库赋值为1和2,因此这里填写1,2;此处填什么数据,需要和数据库的赋值对应起来,且不能填写文字或者字母,只能填数字。因此提醒诸位:构建SPSS数据库时一般赋值建议用数字,不要用文字或者字母。表1:提供分组描述生存时间平均排名(秩平均值)和总排名(秩总和)秩和检验最重要的结果是z值和P值,两样本给出的检验统计量是z值,z值越大,P值于晓,本例z=-3.673,P=0.000。这里的z值正负号大家不用管,只是指明方向,大家只关注z绝对值即可;P值的意思是P<0.001。 ① 曼-惠特尼/威尔科克森:即提出秩和检验的三人中文翻译,这里提供得是秩和检验的原始检验统计量(请自动忽略)② 此处提供最常见的秩和检验统计量z值和P值(双侧)。z>1.96,P≤ 0.05。渐进显著性(双尾)即双侧假设检验的P值(此为正态近似法结果);精确显著性,则直接计算概率的方法(样本量<50,若与渐进法存在冲突,此结果更准确)。一般情况下,采用近似法即可。根据上表,我们可以得到以下的规范的文字和表格表达:规范文字:局部加热组小鼠生存时间中位数为15.5(14.3,24.8)天,空白对照组小鼠生存时间中位数为4.0(3.0,10.5)天,两组总体生存时间分布存在着统计差异(z=3.67,P<0.001)。 ①此处提供的为中位数和上下四分位数:M(P25,P75),也可以采用中位数(四分位数间距):M(IQR)来表达(详见day2-2的SPSS操作)。 ② 统计分析中,置信区间(95%CI)与P值地位同等重要。 作为偏态分布数据,本体两组差值的95%CIC采用可以Hodges-Lehmann方法。偏态分布的两组中位数差值95%CI置信区间,具体方法可见下面文章:值得注意的是,两样本秩和检验主要探讨的总体分布位置,而不是总体均数。作为两样本t检验重要的补充,两样本秩和检验用途广泛。一般来说,两组数据比较,用t检验还是秩和检验没有明显的界限,特别是近似正态分布的数据(正态性检验P≤0.05),秩和检验和t检验很难说必须选择哪一种方法。虽然任何一组正态性检验P≤0.05,均可以放弃t检验而选择秩和检验(不过我一般不这么做)。Day 3 t检验说过,近似正态分布要用t检验,那么可以用秩和吗?其实没有问题呀,秩和检验广泛应用在定量数据比较。我们认为近似正态分布,秩和检验和t检验都可以,要“逢场作戏”。
近似正态分布可以选择t检验或秩和检验,如果你觉得郑老师说得对,近似正态分布用t检验;如果一篇文章审稿人观念陈旧,觉得偏态(虽然是近似正态)就不能用t检验,那就听他的吧。 严重偏态分布必须选择秩和检验。 如果观察指标理论上属于偏态分布,无论正态性检验P值,优先考虑秩和检验(“理论上”的意思是客观世界中大样本群体常见的存在形式,甚至是一种常识,专业人士一看便知)。本文的案例生存时间便是客观理论上是偏态分布的。 无论正态性检验P值大小,如果研究变量分布直方图呈一边倒趋势,或者存在若干个极端异常值,优先考虑秩和检验。 若至少一组数据样本量≤50且正态性检验P值<0.05,优先考虑秩和检验 更多的场合,到底用t检验还是秩和,不妨请学习本系列课程两样本t检验一讲。最后提醒:要学习本推文的完全对应的课程视频(看推文是不足够学会统计分析的),请发送关键词“打卡”入群高校公益免费课程群来学习吧。 -本讲结束- 本公众号作为医学数据分析公众号,提供一些免费医学统计学学习资源下载,欢迎点击下载。2021年,我们召集了一批富有经验的高校专业队伍,着手举行短期统计课程培训班。如果您有需求,不妨点击查看:
|