玩转假设检验，拯救那些被p值拉低的智商！——探秘样本量和p值的关系以及两类风险

gavin2025 2022-12-25 发布于江苏

展开全文

假设检验是六西格玛里最常用的统计工具之一，也是广大六西格玛爱好者经常探讨的话题之一。对于很多六西格玛黑带和绿带来说，假设检验的确有一定的难度。其中最难理解的知识点之一就是样本量和p值的关系。

1、问题提出:样本量越大p值越小吗？

众所周知，假设检验时p值是不稳定的，在总体相同，原假设备择假设相同的条件下，样本量不一样，p值很可能不一样。那么样本量具体是如何影响p值的呢？样本量越大p值越小吗？

假设总体是确定的，并且总体非常大；原假设和备择假设也是确定的。现完全随机抽取一定数量的个体组成样本来进行假设检验。问题:

(1).如果我第一次抽取样本后假设检验的p值大于0.05(本文默认的显著性水平为α=0.05),继续抽取更多的个体加入原来的样本组成新的样本，进行同样的假设检验，是否会出现p小于0.05?

(2).随着样本量的增加，p值是否会单调递减？

(3).如果我第一次抽取样本后假设检验的p值小于0.05,我继续抽取更多的个体加入到原来的样本里面组成新的样本进行同样的假设检验，是否会出现p大于0.05?

很多人的答案是这样的：

（1）有可能。

（2）是。

（3）不可能。

你同意上面的说法吗？曾几何时，我也是这么想的，相信样本量越大p值越小……有没有人也同样掉进这个坑里了?

(2).实证研究:样本量增大了，p值到底怎么变化呢？

先不急着直接给出答案。我先讲讲我实际工作中碰到的两个案例。

2.1. 样本量增大后p值变小的案例(离散型数据)

案例一:

2019年9月份我们供应商生产的一款振动马达在我们生产线上使用时发现有功能不良，不良率超过了0.3%(根据和供应商的约定，这个料的不良率不能超过0.3%)。供应商采取了改善对策，也提供了8D报告，并且送样100个给我测试，结果都是合格的。供应商说我的报告你也审核过，改善样品也验证合格，可以结案了吧。我第一反应是，100个样本都测试合格就代表改善好了吗？你咋不就送一个样品样品测试合格了你就喊你的合格率达到100%了啊?就算你不做任何改善在原来的库存里重新抽100个送给我验证，100个都合格的概率也会达74%!你这是逗我玩啊?我假设检验了一下，发现p大于0.05(原假设:不良率大于或等于0.3%;备择假设:不良率小于0.3%)。

P值为0.740，这意味着如果拒绝原假设(即否认不良率大于或等于0.3%)，出错的概率会达到74%。傻子都不会冒这么大的风险做出这么糊涂的决定。显然，虽然样本不良率为0，但还是没有足够的证据证明改善后的不良率小于0.3%，也就是说没有足够的证据证明改善是有效果的。供应商非常有信心他们采取的措施是有效的，于是再送了1000个样品进行验证(这1000pcs和前面的100pcs是同一批次生产的，默认来源于同一个总体)。验证结果还是没有不良。这次假设检验的结果是非常显著的了，p值等于0.037，小于0.05;冒3.7%这么点风险还是可以的(这意味着平均100次这样的假设检验只有3.7次判定错误)，因此我们拒绝原假设相信备择假设，即认为供应商的改善后的不良率小于0.3%，因此我们认可供应商的改善是有效的。(注:实际工作中为降低风险先小批量验证后放量验证是非常常见的做法，杠友们不要问我为什么不一开始就让供应商送样1100个进行验证)。

两次假设检验结果汇总如下:

2.2 样本量增大后p值变大的案例(离散型数据)

案例二:

2020年1月份的一天，刚上班没有多久，QE妹子就急匆匆的打电话给我，说生产线发现了好多USB线材外观不良。我去生产线上确认了一下，的确是明显的外观不良。250个里有6个不良(生产线对这个外观100%进行检验)，不良率已经超出1%了(我们的内部规定是以每天的生产量为单位进行统计，此料外观不良不能超过1%。至于这么规定是否合理就不在本文讨论了)。假设检验的结果也是显著的(原假设:不良率小于或等于1%;备择假设:不良率大于1%)。P值为0.041，如果认为原假设不成立(即认为供应商的这批来料不良率高于1%)只有4.1%的概率会出错，显然我愿意相信这个结论。

QE妹子要求我采取改善措施。因为这个料只有一家供应商在交货，而且仓库里只有这一个批次的库存，供应商在广东又没有办法当天过来挑选;于是乎我让生产线协助安排一个检验员在投入USB线材前100%进行检验，检验合格的再投入使用(检验标准不变)。当然，供应商内心也希望我们多检验一些再看看，看看后面检验的结果能不能把这个不良率拉低，这样他们就不用来返工了。生产线后来共检验了1250个，发现了4个不良。两次的数据合并后计算发现不良率小于1%，假设检验的p值为0.931，也大于0.05。这么大的p值要拒绝原假设，冒的风险太大了，所以呢，没有证据认为原假设不成立，我们相信这批物料不良率小于或等于1%。(杠友们的第一反应是这批原材料的不良品分布不均匀而主要集中在某一处，刚好你们刚开始生产时就是用的这部分不良很集中的料。实战中这种情况也的确是会发生的。但在不良分布完全均匀抽样完全随机的条件下，我这个案例里的状况也是有可能出现的，这里就不多抬杠了)。

两次假设检验结果汇总如下:

案例一，第一次假设检验p值为0.740，增大样本量后，把两次的数据合并后进行假设检验，p值为0.037。从这个案例里可以看出，的确存在样本量增大后p值变小的情况;并且p从大于0.05变得小于0.05;

案例二，第一次假设检验p值为0.041，增大样本量后，把两次的数据合并进行假设检验，p值为0.931。从这个案例里可以看出，的确存在样本量增大后p值变大的情况，并且从原来的p小于0.05变得大于0.05。

2.3. 样本量增大后p值有可能变小也有可能变大的案例(连续型数据)

至此，上面的几个问题已经有初步答案了。当然，有的朋友可能还会表示不服，说你这只是对离散型数据进行研究，连续型数据呢？

我也好奇，那连续型数据的假设检验的样本量和p值的规律到底是什么样的呢？可惜实战中没有找到刚刚好能解释清楚这个问题的案例。于是乎我用minitab生成随机数据进行实证研究；同样发现了样本量增大后p值既有变小的现象也有变大的现象;并且的确有原来p小于0.05，加大样本量后再次假设检验p值大于0.05的现象。具体操作步骤和结果附在本文正文后面。

2.4.结论

因此正确的结论是：

(1).如果我第一次抽取样本后假设检验的p值大于0.05,我继续抽取更多的个体加入原来的样本后组成新的样本，进行同样的假设检验，是否会出现p小于0.05?有可能。

(2).随着样本量的增加，p值是否会单调递减？不会。

(3).如果我第一次抽取样本后假设检验的p值小于0.05,我继续抽取更多的个体加入到原来的样本里面组成新的样本进行同样的假设检验，是否会出现p大于0.05?有可能。显然，并不是样本量越大p值越小。

3、为什么不是样本量越大p值越小呢？

有些人可能还是无法理解，不是说样本量越大，功效越大吗？样本量越大，也就是越能检验出差异来，因此p值越小，这不是顺理成章的吗？比方说某药物临床试验没有发现副作用，但大量投入使用后被发现副作用非常明显(原假设:该药物无副作用;备择假设:该药物有副作用)，上面的案例一也是样本量小的时候假设检验结果不显著，但加大样本量后就显著了。并且根据公式，

样本量n越大，|t|越大，自然p越小。(以双侧t检验为例，其它假设检验同理类推）。

上面说的这种情况的确是存在的。样本量加大后p值有可能变小，这个比较容易理解，我们就不多讨论了。但是否必然是样本量越大p值就越小呢？如果真的是这样的话，只要样本量足够大p值就会小于0.05，那假设检验结果著不显著完全取决于样本量，这不成了样本量的游戏了吗？这显然是不科学的，也违背了我们进行假设检验的初衷。那么这个观念到底错在哪里呢？

如果完全没有抽样误差，那么样本均值恒定，样本标准差恒定，样本量越大，显然是p值越小。

但实际情况是任何抽样都是有抽样误差存在的。不同次抽样，样本均值和总体均值一定会存在抽样误差，样本标准差和总体标准差之间同样也存在抽样误差。样本量增大后，样本均值和样本方差通常会有变化，n一定会增大。有一定概率出现下式的分子变小，分母变大造成|t|变小，也有一定的概率分母变小，但分子变小的幅度更大，从而|t|变小。|t|变小从而p值变大。

以表1的C2到C3的变化为例，样本量从20增加到30，平均值从99.839变为99.745，标准差从0.808变为0.783，t值从1.87变为1.71;于是乎p值从0.076增加到0.097。

C2:t=1.87,p=0.076(单边0.038)

C3:t=1.71,p=0.097(单边:0.049)

从下图中可以看出，t值从1.87变小到1.71后了，p值变大了。(注:自由度为19的t分布曲线和自由度为29的t分布曲线差异非常小，图上看不出来。)

当然，对于t分布来说，样本量增大后自由度增大了，t分布发生改变了，对p值也会有改变。当|t|减少对p值增大的影响超过了自由度增加对p值减小的影响时，p值仍然会增大。这种情况还是有可能发生的，刚刚说的C2到C3的变化就是一例。(此外样本量达到一定程度后自由度再增加对t分布的改变是微乎其微的。)

这种现象的根本原因是抽样误差的影响，这种现象不是必然会出现而是小概率事件，但会有一定概率出现，多次重复类似的操作通常会出现上述现象。

上述“样本量越大p值越小”的理论错就错在忽略抽样误差的影响，默认样本均值和样本标准差是固定不变的，而实际假设检验时二者通常会随取样的不同而不同。

上面是从定量分析的角度来进行解释的，可能有些读者理解起来有点困难。接下来我将从定性的角度来进行分析。

假设检验通常会存在两种错误:弃真错误(α错误，有的书上也称第一类错误)和取伪错误(β错误，有的书上称第二类错误)。弃真错误是原假设为真假设检验结果为拒绝原假设的错误，在这里的表现就是原假设为真，p<0.05;取伪错误就是原假设为假假设检验结果为不拒绝原假设的错误，在这里的表现就是原假设为假，p>0.05。

两次假设检验可能出现的各种状况和解释归纳如下表。

注:小概率事件不是完全不会发生的，大量重复操作的情况下，小概率事件时有发生。

总结:

1.原假设为真的情况下，样本量增大p值通常会增大，但不排除有受抽样误差影响有样本量增大后p值反而减小的情况，因此p值不会样本量增大而单调增大。

2.原假设为假的情况下，样本量增大p值通常会减少，但不排除有受抽样误差影响样本量增大后p值增大的情况，因此p值不会随样本量的增大而单调减小;

3.第一次假设检验p小于0.05，增大样本量后假设检验p大于0.05，第一次假设检验p大于005，第二次假设检验p小于0.05都是有可能发生的。

4、p>0.05能接受原假设吗？

曾几何时，我也非常相信p<0.05时拒绝原假设才是有说服力的，p>0.05接受原假设是没有说服力的。于是乎假设检验时总是渴望得到p<0.05的结果;看到别人的报告里出现p>0.05接受原假设时情不自禁的去奚落人家一番。后来多次实践后，感觉这观念也不太对。

p>0.05其实有两种情况：1.原假设为假，发生取伪错误了；2.原假设为真。

P<0.05同样存在两种情况：1.原假设为假；2.原假设为真发生弃真错误了。

根据p<0.05拒绝原假设同样是有可能存在错误的，根据p>0.05接受原假设和根据p<0. 05拒绝原假设的性质其实是一样的，只是出现错误的概率可能不一样，没必要厚此薄彼，控制好两类错误就好。

实战中的确有些假设检验的原假设是真的，你很难有机会去根据p<0.05来拒绝原假设。那怎么办？不假设检验了吗？

比方说圆周率π在3.1415926和3.1415927之间，在一千五百多年的实践中还是没有被证伪过，难道我们还不能认可这个结论吗？还要怀疑到什么时候呢？

同样的道理，一批产品，你检验了1000个没有发现不良，检验了5000个还是没有不良，检验了10000个还是没有不良。你还不能下结论说这批产品可以接受吗？还需要抱着“莫须有”的想法去认为“我没有检验的那部分产品里可能会存在不良”吗？

因此，控制好取伪错误(β错误)，也就是控制好功效(1-β)(最小功效通常取0.9，或0.95，0.99)，根据p>0.05来接受原假通常是可行的虽然会冒点取伪风险，但假设检验哪有不冒风险的呢？)。当然功效不够的情况下根据p>0.05决定接受原假设通常是不行的。

原假设和备择假设相同时，样本量越大，功效越大。限于篇幅，本篇暂不讨论功效的计算和最小样本量的计算了，有兴趣的朋友可以查询相关统计资料。

5、p<0.05拒绝原假设会有什么问题?

很多时候我们在假设检验时会根据p<0.05来拒绝原假设。这么做当然没什么错误，但需要明白的是这么做是存在一定的弃真错误的。以临界值p=0.05为例，平均20次这样的假设检验会发生一次弃真错误。运气不好的时候，你假设检验一次就碰到了弃真错误了;就像每年都有平时成绩很好的考生在高考时发挥失常落榜一样。比方说案例二中第一次假设检验就发生了这样的错误。

如果弃真错误造成的损失比较小，检验成本比较高，这么一刀切是没有问题的。如果弃真错误损失很大或检验成本比较低，p<0.05时不妨“再给一次机会，以观后效”，增大样本量后再次进行假设检验，以便降低弃真错误的损失。

当然，如果需要长期降低弃真风险，最好的办法就是直接抽更大的样本量或者取更严格的显著性水平(比方说α=0.01)(显著性水平要在假设检验之前确定好，老余坚决反对假设检验后根据计算出来的p值再调整显著性水平。想问为什么的，我们可以另行讨论)。

6、实战中该怎么做?

综合上面的分析，我们可以得出下列几点启示:

1. 假设检验时，并不是样本量越大p值就一定越大;

2. P>0.05时如果功效足够，可以接受原假设(当然，存在一定的取伪风险(β风险);

3. P<0.05时拒绝原假设也不是100%正确的，存在一定的弃真风险(α风险)。

基于上面的分析，我们摸索出了一个在实战中适当降低假设检验两类风险的流程，见如下流程图;希望对大家能有些价值。(注:是否需要降低弃真风险根据实际应用情况，综合权衡弃真造成的损失和再加大样本量的检验成本等因素来决定)。

针对单边假设检验，为了更有效的降低弃真风险，我的老师欧立威老师的观点是如果第一次检验的结果为p<0.05,为了减少弃真错误，建议把原假设和备择假设互换再进行假设检验。后续的操作见流程图中相应的步骤。双边假设检验如果第一次的结果为p<0.05直接进入评估是否需要降低弃真风险步骤，后续操作见流程图中相应步骤。

再次感谢欧立威老师对本文的耐心指导！