【原】如何开展方差分析与多重比较 | 30天学会医学统计与SPSS公益课（D6）

妙趣横生统计学 2021-03-04

展开全文

30天打卡学习医学统计与SPSS

本课程是高校医学统计学教授的公益、免费公开课！如假包换！我将每天推送视频和文字教程，讲授基于医学数据的各种统计分析策略。如果你能跟得上节奏，我相信在一个月后，您将会掌握医学数据分析方法。

1.9分钟视频介绍：为什么推荐您学习这门课?

2. 课程所需的SPSS全套视频、数据库、讲义下载

2021年如何学习医学统计学？无偿奉上我们精心制作的医学统计学全套资料

3.“高校公益免费课程新一期” 详细介绍：

公益课程“30天学会医学统计与SPSS”再次开课，欢迎入群学习！

如果您真的能够坚持，发送关键词“打卡”，加入微信学习群吧。骗人？不存在的。你们能够学会医学统计学，我将视为这是一种成就。

此外面向医务工作者，我们也开设“统计跟学课程”【学不会全额退款】：

面向医务工作者的“30天学会分析医学数据”新一期课程即将开课

更多培训请点击查看：R、Meta、重复测量、量表分析

Day 6：方差分析与多重比较

隶属第二章：实验性研究定量数据的统计分析策略

t检验主要用于两组定量正态分布的数据比较，但是如果需要比较多组定量数据，t检验分析方法很可能不合适，此时，必须要借助另外一种方法，方差分析，英文缩写ANOVA（ANalysis Of VAriance），又称F检验。

实例分析

在评价某临床新药耐受性及安全性的2a期临床试验中，对符合纳入标准的30名健康自愿者随机分为3组，每组10名。各组注射剂量分别为0.5U、1U、2U，观察48小时部分凝血活酶时间（s），试问不同剂量的部分凝血活酶时间有无不同？数据库见time48.sav

1

思考

这个案例来源于上一讲，需要思考：

-这个案例由几个变量组成？

-研究的结局变量是什么?

-结局变量属于什么类型的变量？

-如果是定量变量数据，是偏态还是正态分布？

-研究目的是比较，那比较的组数是多少？

2

案情分析

这个案例包括2个变量，一个是活酶时间（s），另外一个是分组变量。主要研究的结局指标是活酶时间，为定量变量数据；比较的组数是3组（0.5单位/1单位/2单位）。本案例目的是比较多组总体有无统计学差异。

3

统计分析策略

多组定量数据的比较，基本的方法有2种。一种是成组F检验，一种是多样本的非参数秩和检验（Kruskal Wallis 秩和检验）。

究竟采用哪种方法，必须考虑“三个性”的条件：正态性、独立性、方差齐性。关于“三个性”的解释，可以看Day 3：成组t检验的文章，此处不再赘述。

总的来说，方差分析针对两组或以上、定量、正态、独立、方差齐的数据比较。前面2个要求和多样本的非参数秩和检相同，差别在于F检验要求数据符合正态性、独立性、方差齐性三个要求。此外，如果细心的朋友可能会注意到，这里方差分析的条件是2组或以上，也就是方差分析不仅处理多样本，也同样可以处理2样本，关于这一点，我最后进行解释。

总结来说，对于本例：

本例采用随机化分组设计，独立性符合。

正态性方面，采用的是多样本正态性检验方法，探讨各组是否均来自于正态分布总体。经SW检验，0.5个单位P=0.531，1个单位P=0.250，2个单位P=0.605，没有统计学意义，三组数据正态性均符合。

方差齐性检验，在SPSS 操作F检验时同时进行。

SPSS 操作

F检验SPSS操作界面：

分析—比较均值—单因素ANOVA检验

F检验具体参数设置

“检验变量”放入活酶时间（time），“分组变量”放入分组（group），同时进行“定义组”。

① 检验变量：即放入结局指标，本例为凝血活酶时间（time）

② 分组变量：放入group，无须如同t检验“定义组”

③ 选项：此处内容较为丰富，见下图：

① 描述：描述不同组的结局的均数、标准差、95%CI置信区间

② 方差齐性检验：方差分析“三个性”条件之一

③ 韦尔奇：这是一种F检验替代，用于方差不齐时进行使用。

④平均值：大致比较多组之间的均数，意义不大。

F检验分析结果及解释

根据上述SPSS操作，F检验统计分析以下结果:

第一，统计描述，给出均数、标准差、95%CI置信区间

第二，方差齐性检验。可选择第一行结果，结果显示方差齐性检验P=0.186，方差差不多一致。可采用F检验。

第三，F检验结果，结果显示F=6.53，P值=0.005，说明多组总体均数存在着统计学差异。

①F值，为本表中两个均方值的比值（45.6/6.98=6.53）

②显著性，即P值

第四，韦尔奇检验，这是F检验的在方差不齐时的替代，Welch 检验，P值=0.002，意味着多组存在着统计学差异。

为什么两两比较不能用t检验

但凡学过《医学统计学》的朋友，可能都了解一些，多组均数F检验只能说明多组之间总体均数不全相同，不能说明任何两组之间存在着统计学差异。可在此基础上开展多重比较的方法（俗称两两比较），以探索两组两组之间有没有统计学差异。

怎么比较？两组均数比较，我们之前讲过用t检验，这里多次两两比较可以直接用t检验吗？

不能！多组数据两两比较用t检验会增加一类错误α，也就是假阳性错误。这意味着本来你的研究应该是阴性结果，但如果两两比较用t检验，您的结果可能就是阳性。

一般情况下，我们一项研究的一类错误α值设定为0.05，因此，我们才有P<0.05,有统计学意义的结论。但是这个结论存在一定的风险，或者说，我们的结论可能5%的可能性是错误的，是假的阳性结论。

5%的假阳性是公认的可以被接受的，但是如果一个项目多次两两比较，假阳性的概率可不是5%的概率了。

原理如下：当有k个均数需作两两比较时，同时比较的次数共有c= k(k-1)/2。设每次检验所用Ⅰ类错误的概率水准为α，累积Ⅰ类错误的概率为α’，则在对同一实验资料进行c次t检验时，在样本彼此独立的条件下，根据概率乘法原理，其累积Ⅰ类错误概率α’与c有下列关系： α’＝1－(1－α)^c 例如，设α＝0.05，c=3(即k=3)，其累积Ⅰ类错误的概率为α’＝1－(1-0.05)³=1-(0.95)³ = 0.143

本来假设检验假阳性错误是5%，现在有14.3%，太多了。容易把阴性结果说成阳性！虽然，可能发表文章是很有利的，但是这是不合适的。

郑老师再说两句

估计你还是不明白，我再通俗介绍一番。这对于你为什么要进行两两比较，何时进行两两比较有些许帮助。

第一，假阳性，一般是5%的设置，也就是说，即便两组总体均数相同，但由于抽样的原因，也会5%的概率结果表现出阳性的结果。所以一篇论文，总是存在着一定的假阳性的概率，但不能太高，5%是合适的水平。

第二，多次比较的假阳性问题。多次比较，比如三组数据两两比较，即使（1vs2，2vs3，1vs3）三次数据比较，理论上均没有差异，但是由于各次比较均有5%的假阳性率，那么至少出现一个结果P<0.05的概率会是多少？0.143。换言之，你的一篇论文即便三组总体均数完全一致，如果用t检验进行两两比较，有14.3%的概率会出现一个P<0.05。

第三，有句话说“东方不亮西方亮”，多次比较，偶然发生阳性的结果的概率会大大增加。这虽然对论文发表是好事，但这是毒药。这样的论文不可靠。

第四，因此多组均数两两比较不能直接用t检验，不是因为t检验有错，而是因为t检验会造成一种表面的到处飘阳的结果。

所以统计学引入了一些多重比较的技术，来防止过高的假阳性概率。

要是您还看不懂，来看一篇推文吧：

讲个明白：为什么方差分析后两两比较不能直接用t检验？

如何进行多重比较

到处飘阳的虚假繁荣，场景很多见，在医学研究上包括以下几类：

1）多组数据两两比较

2）多个结局指标比较

3）临床试验的期中分析

4）亚组比较

上述这些场合下，普通的假设检验比如多次t检验直接分析（α=0.05），均会增加一篇论文总体的一类错误α值。

为此，本文介绍基本的控制一类错误的方法，包括基本统计算法、a分割法、人工规避法。

α分割法：多重比较次数较多时，可对α进行分割处理。比较n次，新的检验水准α’=α/n，比如三组数据两两比较，α’=0.05/3=0.017，在此基础上仍然可以进行两组两组均数比较的t检验。

统计算法或者通俗来说是软件法：这一类其实是泛泛归类，特指基于数据进行统计量和α值全面调整的方法，这些方法软件自动分析，其中SPSS软件列出14种算法，如LSD、Tukey方法等

人工规避法：通过人为预先设定，控制比较的次数。比如，三组数据多重比较时，不再两两比较，只比较第一组和第二组；通过降低比较次数甚至只比较一次，那便无需通过校正α值就可以控制假阳性了。

如何SPSS进行基本的多重比较

由于本文是SPSS入门，我主要介绍SPSS菜单式的统计算法来控制一类错误。其它的方法，其他方法可关注今后篇章。

常见的统计算法诸如LSD，SNK等方法。SPSS列举很多方法，总共有14种，分为方差齐性的方法和方差不齐的两类。

多重SPSS操作界面

分析—比较均值—单因素ANOVA检验

多重比较具体操作入口

多重比较在F检验基础上进行，所以多重比较的SPSS分析路径基本与F检验一致

① 对比：此入口可以选择某2组进行t检验（即上文所提的人工规避法进行比较），结论与常规的t检验一致，由于篇幅限制，不再进行说明。

② 事后比较：英文为Post Hoc Comparison。所谓事后比较，俗称马后炮分析，指的是一个研究项目设计时未制定比较的组别和方法，而在统计分析阶段进行任意组别的两两比较，没有很强的针对性。不过，这一入口中的方法，不全都属于事后比较的方法（下文有具体介绍）。以下是点击“事后比较”后的中英文界面：

英文列表

中文列表

常用多重比较的分享结果

（1）Bonferroni分析结果

大多数多重比较无论是结果还是结论呈现方式与Bonferroni相似，因此本文只列出Bonferroni的结果。

注意：此处显著性即P值，此处检验水准α无需进行α分割处理，一类错误经由统计算法校正，因此P<0.05即可认为有统计学差异。

结果显示，0.5个单位和1个单位剂量组的48小时部分凝血活酶时间存在着统计学差异（P=0.004），0.5个单位和2个单位剂量组、1个单位与2个单位剂量组48小时部分凝血活酶时间没有统计学差异（P>0.05）。

（2）Dunnet t检验分析结果

本处以0.05个单位剂量组为对照，其它两组分别与之比较。结果显示，1个单位和0.5个单位剂量组48小时部分凝血活酶时间存在着统计学差异（P=0.003）、2个单位与0.05个单位剂量组48小时部分凝血活酶时间没有统计学差异（P=0.368）。

由此可见，不同的多重比较方法结果存在着一定的差异。

F检验在统计分析中的实际应用

1.F检验结论取决于研究设计

F检验是最基本的假设检验方法，在随机、对照、平行的实验性研究中，F检验的结论十分可靠，完全证明一个干预措施是否真正产生效果，或者干预措施和定量结局是否存在着因果关系。

但是F检验如果用在观察性研究，比如比较男性、女性的体重有无差别，其结论不能说性别是体重的影响因素，只能说男性和女性体重存在着统计学差异，仅此而已。关于观察性研究F检验，后期再进行分析。

因此，同t检验一样，F检验结果到底能够说明什么问题，取决于研究设计。

3. 两样本比较，也可以用F检验

很多时候，如果进行多次方差分析，多个方差分析结果需要呈现在同一表中，有些分组变量为二分类，有些是多分类，此时，需要同时包括t检验和F检验吗？其实不用，两样本比较，也可以用F检验，而且两样本t检验和两样本F检验的结果是一致的。

比如以下案例：

将出生28天的20只大白鼠随机分成两组，分别饲以高蛋白和低蛋白饲料，8周后观察其体重（g）。问两种不同饲料对大白鼠的体重影响有无差别？

高蛋白组：133，145，112，138，99，157，126，121，139，106，115

低蛋白组：118，75，106，87，94，110，102，124，130

t检验的结果

F检验的结果

可以看出，两个结果P=0.016，没有任何差别。所以，两组比较别就盯着两样本t检验了！

3.F检验“三个性”同t检验，是原则，不是铁标准

关于“正态性、独立性和方差齐性”，与t检验一样，差不多即可，不用严格执行。总体上，独立性一般成组设计即可，无论是随机化设计还是自然成组，方差不齐，亦可以采用校正F检验（welch检验），关键的主要是在于正态性。

总体上，与t检验一样，多组数据均为正态或近似正态分布者用F检验，至少一组严重偏态时将会用到秩和检验。更多的细节如下：

当F检验遇见正态性问题

是否采用F检验，要看其指标理论上是何分布，直方图形态是否大致中间多或者两边少，观其是否极端异常值；正态性检验是辅助的作用。以下分析习惯，与t检验套路相同，仅供参考:

如果指标理论上属于偏态分布，则放弃F检验
如果该指标理论上属于正态分布，无论大小样本，多组数据只要直方图大致中间多或者两边少，无特别异常值，均可采用F检验
如果指标理论分布不明确，但样本量较大（>50），多组数据只要直方图大致中间多或者两边少（近似正态分布），无特别异常值，均可采用F检验,无需考虑正态性检验结果。
如果指标理论分布不明确，但样本量不大（<50），若多组数据正态性检验P值均>0.05,可以考虑采用F检验，若至少一组<0.05,建议放弃F检验
无论大小样本，如果直方图呈一边倒趋势，或者存在若干个极端异常值，放弃F检验

多重比较如何选择方法

郑老师小结

多重比较还是太复杂，估计你还是不懂。我这里提供给几条做法。这些做法为本人习惯，并非100%正确，请谨慎使用。

1. 多重比较可以采用a分割，也可以采用统计软件算法。初学者当然使用软件自带的LSD， Bonferroni等方法了。

2.Bonferroni是保守的方法，但是我还是蛮喜欢用，实际上临床研究最为认可；但如果你希望你的结果容易得到一些阳性结果，那么采用最灵敏的LSD方法。折中的办法是Turkey 和Scheffe法。如果比较的各组样本量相等，Tukey法效率较高，所以样本量相似的时候，可以采用Tukey方法；如果样本量不同，则推荐Scheffe。

3.如果你不想完全两两比较，采用dunnet 方法，它以某一组作为对照。

4.a分割即你的统计方法不变，两组定量数据比较仍然可以采用t检验，但是P值不再小于0.05就被认为有统计学意义，而是P<0.05/比较次数。懂了一点多重比较的理论的同学可以使用。

5.超过4组数据多重比较时，不要全部进行两两比较（全部两两比较要进行10次。此时，你想要某一个感兴趣的比较出现阳性结果会很难）。

比如，4组比较，我感兴趣的是1 和 4组有没有差别，但是如果采用全部两两比较时，很难得到1 和 4的差别，因为单次比较的P要小于0.005才有统计学意义。那么怎么办呢？

这时，可以挑选若干组进行比较，采用α分割法控制一类错误。比如，4组比较，我就比较1 vs 4，1 vs 3，那么比较两次α=0.05/2=0.025，即这个时候可以采用t检验，当P<0.025便具有统计学意义。不过注意是，这种挑选比较的方式，必须在数据分析之前甚至在科研设计之前，就事必须先设定好，而不是谁有阳性就挑选谁？

最后提醒：要学习本推文的完全对应的课程视频，请发送关键词“打卡”入群高校公益免费课程群来学习吧。

-本讲结束-

更多信息：

本公众号作为医学数据分析公众号，提供一些免费医学统计学学习资源下载，欢迎点击下载。

1.免费下载！统计初学者的福音！《妙趣横生统计学》视频，生动有趣的统计学！

2.医学研究样本量如何计算？原创高清教程视频来了，完全免费下载！

3.绝对值得收藏！原创高清SPSS 操作视频免费下载

4.推荐！这个流行病大神制作的公共卫生研究小工具，可以计算标准化率及置信区间

5.全网最简单的SPSS教程，160页PPT学会SPSS统计分析！免费下载！

6.“如何在90分钟学会统计分析？” 来下载PPT学习吧！还有免费直播视频

特别提醒：上述列表资源每天限分享和下载一个。

培训通告