分享

通过可视化假设检验理解统计测试的工作原理

 taotao_2016 2020-01-14

在本文中,我们将为假设检验提供直观的视觉感受。虽然网上有很多文章用文字解释,但主要依赖于视觉效果并不足够; 这是令人惊讶的,因为该主题非常适合通过图片和动图进行展示。

通过可视化假设检验理解统计测试的工作原理

让我们简要描述它甚至是什么。

什么是假设检验

最好先从一个假设检验的例子开始,然后再进行描述。我们需要的第一件事是一个假设。例如,我们可以假设男性的平均身高高于女性的平均身高。本着'矛盾证明'的精神,我们首先假设两性的平均高度没有差异。这成为我们的默认或无效假设。如果我们收集关于两组高度的数据,并发现如果零假设为真,则极不可能观察到这些数据(例如,'如果null为真,为什么我看到之间存在这么大的差异?在样本中男性和女性的平均身高相待?'),我们可以拒绝它,并得出结论确实存在差异。

对于一般假设检验问题,我们需要以下内容:

1. 我们关心的指标(上例中的平均高度)。

2. 两种(或更多种)以某种已知方式彼此不同的组(上述实施例中的雄性和雌性)。

3. 一个零假设,即我们的团队中的度量标准是相同的,因此我们在收集的数据中观察到的任何差异必须仅仅是统计噪声和另一个假设确实存在一些差异的假设。

然后,我们可以继续收集这两个组的数据,估计它们感兴趣的度量标准,并查看我们的数据与我们的零和备用假设的兼容性。最后一部分是假设检验理论的用武之地。我们将逐步看到它在前面的部分是如何运作的。

如何拒绝

现在我们已经形成了我们的假设并收集了我们的数据,我们如何使用它来拒绝我们的null?总体框架如下:

1. 定义一个统计数据,可用于衡量我们在两组之间关注的指标的偏差。在我们的平均高度示例中,这样的度量可以是男性和女性的平均高度之间的差异(零假设将是零)。另一个可能是男性和女性的平均身高之间的比率。

2. 由于我们开始假设零假设,我们已经知道了我们的检验统计量的分布的平均值(在上面的例子中,差异为零,比率为1)。关于分布的其他所有内容(如差异和其他时刻),我们从我们收集的数据中获得。

3. 现在从收集的数据中获得统计数据的点估计(平均高度的差异,平均两组的高度平均值并取差异)。如果零假设是真的,那么看到某些东西的可能性是什么,或者比我们观察到的估计更极端?如果这个概率(称为p值)低于某个阈值,我们得出结论,零假设不可能产生它。这个概率成为我们测试的假阳性率的估计(因为我们将拒绝零,即使这个概率是真的)。

关于方差的说明

重要的是要强调,关注点的分布是我们在测试统计中的估计分布,而不是人口中度量的分布。例如,在我们比较男性和女性的平均身高的例子中,男性的身高会有一些变化。然而,这不是我们感兴趣的方差。如果我们采用n个男性并平均他们的高度,我们估计男性人口的平均身高。

此估计值存在差异除非我们围绕这个星球上的每个男性成员,测量他们的高度并平均他们。如果我们再次进行实验,我们可能会得到一组不同高度的男性。所以,这次我们得到的平均值会略有不同。重复实验的这种差异(如果我们多次进行)是我们感兴趣的估计。

随着我们增加任何组的样本量,我们对该组的估计值的差异会下降。如果你恰好是过敏或只是没有数学的心情,只想跳到图片,你可以跳过以下部分,跳到下一个。

方差:数学

我们的检验统计量的方差(例如,男性和女性平均身高估计值的差异)取决于两组指标估计值的方差。为了使这个具体,让我们说我们采样n1男性并计算他们的高度s1²的方差。平均男性身高的估计量的方差变为:s1²/ n1。这是因为估计的男性平均身高是:

通过可视化假设检验理解统计测试的工作原理

公式1:估计男性的平均身高

因此,这个估计的方差(如果我们多次对n_1个男性进行采样,估计值,h_m将会变化多少)变为:

通过可视化假设检验理解统计测试的工作原理

公式2:给出我们对其中n_1个样本估计男性平均身高的方差。

在公式(2)中,V(h_i)的最佳估计值是单个样本的方差,s_1是从我们的样本计算的方差。可以看到,当我们收集更多样本时,此估算器中的差异会下降。

同样,如果对n_2个女性进行抽样,则女性身高变化的估计值为:s_2²/ n2。

如果我们选择平均值的差异作为我们的检验统计量,它可以表示为:

通过可视化假设检验理解统计测试的工作原理

并且该统计量的方差变为(因为来自两组的样本之间没有相关性):

通过可视化假设检验理解统计测试的工作原理

通过可视化假设检验理解统计测试的工作原理

公式3:检验统计量的方差

要使它变小,n_1和n_2都必须变大。在这里,我们以手段的差异为例。但是,一般结论也适用于我们可能已构建的其他测试统计数据(如均值比率)。

一图胜千言

到目前为止你所看到的只是文字和符号。让我们看一下假设测试的样子。下面的图0显示了t 的(检验统计量是均值的差异)。

假设我们选择假阳性率(FPR),α为15%(我们不希望超过15%的可能性,我们错误地得出结论,当没有时存在差异)。

粉红色垂直线是右侧区域变为15%的点。所以这成为我们拒绝null的门槛。如果观察到的统计量大于粉红线,我们拒绝空值(得出高度之间存在显着差异),如果它更少,我们不会拒绝它(数据无法断定高度存在显着差异) )。

通过可视化假设检验理解统计测试的工作原理

图0:平均值差异的分布。

粉红色区域为15%,因此粉红色垂直线是我们当前的阈值。如果我们从数据中观察到的差异大于它,我们拒绝null。

请注意,对于我们拒绝原假设的标准,我们不是在测试统计本身上构建阈值,而是根据在零下的分布计算的概率。为什么这种错综复杂的方式呢?

因为它确保我们的测试能够捕获两组指标之间的微小差异,给定足够的数据,因为统计估计的方差将变为零。

假设男性的高度总是比女性高5厘米。上图1中的绿点表示这5厘米的差异。然而,由于它位于粉红色阈值的右侧,我们无法识别它并得出结论,没有找到任何差异。

让我们看看当我们开始增加其中一组中的数据量时会发生什么(比如说男性 - 图中的组被标记为治疗和控制;让我们说治疗意味着男性,控制意味着女性)。根据等式(3),检验统计量的方差开始下降。结果,粉红线(右边区域为15%)开始向左移动到绿点。同样根据图1,我们可以看到,增加男性组的样本量可以在其他组的贡献开始占主导地位之前减少差异。因此,粉色线无法达到绿色点。

通过可视化假设检验理解统计测试的工作原理

图1:当我们增加其中一个组的样本大小时,null下的测试统计量的方差减小。

这导致FPR为15%的点向左移动。然而,最终,方差停止减少,因为第二组成为阻挡者。使用以下命令创建::

然而,随着我们增加第二组(女性)的样本量,方差开始大幅减少,粉红线即我们的阈值再次向左移动,直到最终达到绿点。通过这么多数据,我们将能够捕获平均高度差异,与蓝线的绿色点一样小。这个故事的寓意是,即使是最小的影响大小如果给予足够的数据(在这两个组),都可以被捕获。

通过可视化假设检验理解统计测试的工作原理

图2:超过一点,增加第一组的样本量开始给我们收益递减。

因此,我们必须开始增加另一组的样本量,以进一步减少零假设下检验统计量分布的方差。

现在,我们只是表明如果假阳性率的容差为15%,我们得到上面图1和图2中的粉红线。但这是由我们设定的。如果假阳性率是我们唯一关心的,为什么不将它设置得尽可能低(0)?这将涉及将粉红线移动到无穷大,我们不会拒绝空。没有误报,因为根本就没有积极因素。最明显的缺点这个测试是在交替的假说其实真(有是高度之间的差异)。

现在,因为我们从不拒绝null,即使存在差异,我们也总是会错误地拒绝它。这将使我们的假阴性率(概率测试在显着差异时返回负值,即使有一个)最差可能在100%。

在统计术语中,误报率称为1型错误,用α表示,而假阴性率称为2型错误,用β表示。

现在,α来自零假设,我们知道检验统计量的平均值(对于我们一直在使用的等均值的检验,均值差的平均值为零)。为了得到β,我们假设替代假设是正确的(高度确实存在差异)。所以,我们需要在其下分析我们的统计数据。此替代假设的方差和其他方面应与空值相同。但是,我们应该将平均值设定为什么?对于null,它为零(对于均值检验统计量的差异)。对于替代方案,我们只是挥手并从帽子中拉出一个数字。它被称为'效果大小',我们希望我们的测试值得关注。基本上,我们假设平均值的差异恰好是5厘米(比方说),看看我们的测试在捕捉这种差异方面有多好(拒绝空值)。

在下面的图3中显示了两个图,黄色曲线是零假设,紫色曲线是替代假设。它们的峰值间隙是效应大小。图3清楚地显示了α(由黄色区域表示)和β(由紫色区域表示)之间的权衡。当我们减少α时,我们将粉红色阈值向右移动。但这导致增加紫色区域β。

还要注意,当α= 0时,我们总是预测为负数。因此,当备用假设为真时的假阴性率变为β= 1。类似地,当α= 1时,我们将β= 0。由于它们之间存在明显的权衡,我们将得到一个连接这两个极端的递减函数。这种α-β权衡图显示在下面图3的左下方。当粉红色阈值来回移动时,我们沿着递减函数移动。

通过可视化假设检验理解统计测试的工作原理

图3:FPR和FNR之间的权衡

最糟糕的可能测试

现在我们知道假阳性率α由我们决定,但它与假阴性率β之间存在权衡。对于给定的样本大小(在两组中),基于我们构建的一些统计量的任何测试将具有如图3左下方所示的α-β曲线。我们希望α和β都低,所以如果给定假设检验曲线保持低于另一个曲线,我们会更喜欢它。

在统计术语中,优选的测试被称为'更强大的测试',因为1-β被称为测试的力量。现在我们有办法称测试'更强大',考虑到我们的兴趣度量以及治疗和控制组中该指标的分布,对'最强大'测试的自然追求就诞生了。在统计学方面有相当大的努力来找到这些测试。

然而,我们将在本节中采用相反的方向,寻找最坏的,最不强大的测试。因为如果我们知道最糟糕的交易是什么,我们永远不会以最糟糕的方式欺诈​​。

想象一下汤姆的任务是确定天气与否,男性和女性的高度之间存在统计学上的显着差异。他没有出去从一些男性和女性那里收集一些数据,而是呆在家里简单地掷硬币。硬币具有出现'头'的概率α。如果他确实得到'头',他只是得出结论,零假设是正确的,并且平均高度没有差异(在统计术语中,他'未能拒绝空')。如果他得到尾巴(概率1-α),他得出结论认为替代假设是正确的。

鉴于零假设为真,他将具有错误拒绝它的概率α(根据定义)。如果替代是真的,他的概率β= 1-α 不是拒绝空。因此,在这种情况下,α和β之间的关系将简单地为β= 1-α。这显示在下面图4的红线中。对于实际收集一些样本数据并构建合理的检验统计量(如差异或均值比率)的更合理的检验,相应的关系可能看起来像下面的白色曲线。

通过可视化假设检验理解统计测试的工作原理

图4:最差可能假设检验的α-β曲线由红线给出,β= 1-α

我们实际查看一些数据的更合理的假设检验可能由白色曲线给出。你可以看到给定的α,我们得到的红线β要高得多(更糟)。

样本量

在假设检验中另一个重要的问题涉及我们的实验所需的样本量。为了回答这个问题,我们需要目标假阳性率(α),假阴性率(β)和我们感兴趣的效应量。假设我们想要16%的假阳性率和10%的假阴性率。这由下面图5左下方的图中的绿点表示。你可以看到,最初,α-β曲线没有接触到绿点(对于目标α,β比我们想要的要高得多)。

然而,当我们开始增加对照组和治疗组的样本量时,整条曲线开始向下移动,直到最终,绿点位于其上(注意黄色区域,即α保持不变但紫色区域,β减少)显著)。这是由于粉红色线条向左移动,紫色曲线变得更薄。这基本上是我们如何预先确定我们两组的样本量,假设误报率和假阴性率,以及我们希望捕获的效应量。

通过可视化假设检验理解统计测试的工作原理

图5:增加样本量允许我们获得给定FPR的任何FNR

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多