【原】SAS系列16：SAS统计推断（一）

松哥精鼎统计 2020-10-23

展开全文

导读

前面我们已经介绍了统计描述及其SAS实现，今天我们开始介绍统计推断及其SAS实现。统计推断是统计学的重要内容，包括参数估计和假设检验。假设检验SAS实现流程图详见图9-1。在介绍SAS统计推断之前，我们先简单介绍统计推断的参数估计和假设检验的理论部分。

图9-1 数据预处理流程

一、数据的预处理

（一）参数估计

参数估计（Parameter Estimation）是指由样本统计量估计总体参数，常用的估计方式包括：点估计（Point Estimation）和区间估计（Interval Estimation）。点估计很好理解，通常我们应用样本计算的均数作为总体均数的估计值，这就是点估计，点估计简单、准确，但是未必可靠。区间估计，说简单点就是用一个区间来估计总体参数，这个区间称之为置信区间（Confidence Interval），可以理解为一定信心下的区间，最常用的是95%可置信区间，即我们有95%的信心认为这个区间包含了总体均数。

讲到置信区间，我就想起有人曾问过我一个问题：“你来帮我看一下，我这个数据是用标准差还是用标准误来表达？……”。很显然在结果报告时，他根本就没有理解标准差和标准误的区别。我在讲课时，也会重点强调标准差与标准误的区别也联系（详见表9-1）。

表9-1 标准差与标准误差的区别与联系

（二）假设检验

假设检验（Hypothesis Test）是统计推断的另一个重要内容，也可以说是统计学非常重要的思想，其目的是定性比较总体参数之间有无差别或总体分布是否相同。如果不能很好地理解假设检验，那么统计学中的P值的含义也很难理解了。在实际中，我们多数情况是用样本数据去推断总体，由于存在抽样误差，不能简单地根据样本统计量数值的大小直接比较总体参数。

因此，我们通常先要对需要比较的总体提出一个无差别的假设，然后用样本数据去推断这个假设是否正确。假设检验也可以简单的理解为是对假设的检验，既然是对假设的检验，那么我们应该如何去做假设呢？做假设时，利用了反正法思想，从需要解决的问题的对立面（零假设，H0）出发间接地判断问题（备择假设，H1）是否成立，也就是说H0是我们想要推翻的，H1是我们想要证实的。

当我们根据样本统计量计算出结果并对总体参数做出推断时，由于抽样误差的存在我们也不能保证结论100%正确。这就涉及到假设检验中的I类错误和II类错误， H0成立时，拒绝了所犯的错误，为I类错误，即弃真；H0不成立时，没有拒绝H0，即存伪，两者的意义详见表9-2。假设检验的I类错误和II类错误也是统计学中的重点和难点。

表9-2 假设检验的I类错误与II类错误

I类错误和II类错误通常也被称为假阳性错误和假阴性错误，两类错误是一种跷跷板的关系，即I类错误增大，II类错误减小；反之，I类错误减小，II类错误增大。当增加样本量时，可以同时减小I类错误和II类错误。表9-2中的1-β是一个非常重要的概念，即检验效能（Power of Test），当不同总体间确实有差别时，按规定的检验水准α，能发现其差别的能力，即不犯II类错误的概率。假设检验从原理上来讲主要是为了控制I类错误。

最后，我们还要讲一讲P值。实际上，P值是关于数据计算结果的概率，即在H0成立的条件下，根据现有样本数据计算出至少这么大的统计量，这种情况有多大可能是偶然发生的。例如，比较两市男童的身高，通过抽样调查得到A市和B市男童身高的数据，计算得两市男童平均身高差值为d，通常零假设是两市男童的平均身高差值为0，但由于抽样误差也可能会使两市男童的平均身高差值不为0，那么出现d这么大的差值，有多大的可能性（P）是由抽样误差所造成的，如果P<α，这个差值由抽样误差所导致的可能性比较小，两市男童身高有差异；如果P>α，这个差值由抽样误差所导致的可能性比较大，两市男童身高差异无统计学意义。

P值在实际应用中会存在一些困惑，例如计算得到P=0.051或P=0.049，P与检验水准α之间仅相差0.001足以让我们拒绝或不拒绝H0？去年有三位统计学家在Nature上发布公开信，号召科学家放弃追求“统计学意义”，这一封公开信一周之内吸引了超过800名研究人员的共同反对。实际上他们是在呼吁研究人员要正确的理解P值意义。美国统计协会（ASA）发布了关于P值的声明——6条准则：

1. P-valuescan indicate how incompatible the data are with a specified statistical model；P 值可以表达的是数据与一个给定模型不匹配的程度；

2. P-values do not measure the probability that the studied hypothesis is true, or theprobability that the data were produced by random chance alone；P 值并不能衡量某条假设为真的概率，或是数据仅由随机因素产生的概率；

3. Scientificconclusions and business or policy decisions should not be based only onwhether a p-value passes a specific threshold. 科学结论、商业决策或政策制定不应该仅依赖于 P 值是否超过一个给定的阈值；

4. Properinference requires full reporting and transparency. 合理的推断过程需要完整的报告和透明度；

5. Ap-value, or statistical significance, does not measure the size of an effect orthe importance of a result. P 值或统计显著性并不衡量影响的大小或结果的重要性；

6. Byitself, a p-value does not provide a good measure of evidence regarding a modelor hypothesis. P 值就其本身而言，并不是一个非常好的对模型或假设所含证据大小的衡量。

下图是我在一本国外统计书上看到的，关于不同P值的意义与解释（详见图9-2）（具体书名我忘了），相信能给大家在结果解释时有一定的帮助。