Frank_Chia / 概率与统计 / 理解概率统计:参数估计

分享

   

理解概率统计:参数估计

2019-04-06  Frank_Chia

打开数据分析的大门,从感性走向理性。

“概率统计”正确理解,才能正确应用

本专栏从最通俗易懂的角度,用最易于理解的方法,真正内化吸收概率统计的核心思想与算法,帮助您在工作生活中正确应用概率统计知识。

统计推断

统计学主要有两大方面的内容:

  • 统计描述
  • 统计推断

第6节我们剖析了“概率分布”的概念——

概率分布——概率论与统计学的交汇点

所以其实“统计描述”和“统计推断”都是围绕“概率分布”展开的。

统计描述,用数字/函数/图像等描述一个概率分布,这个分布可能是总体的,也可能是样本的;(第7课我们讲的就是用数字来描述分布,称为分布度量)

统计推断,是用来解释“样本分布”与“总体分布”之间的关系的,它分为两大问题:

  • 参数估计
  • 假设检验

这个命名对初学者很不友好,不知道它们到底是要研究什么问题,解释一下:

参数估计用样本的分布参数来推断总体的分布参数

假设检验先假设总体分布的参数,再用样本来检验这个参数的可信度

参数估计:点估计&区间估计

总体的一些统计参数是我们很想知道的,比如平均值/方差等,然而将总体完全调查很难做到,这时我们抽取一个样本,用样本的统计量来“猜”总体的统计量,这就是参数估计

如果参数估计得到的结论是一个数字:

“总体的估计平均值 是24。”

这种估计称为点估计

显然,由于样本只能体现“总体的部分信息”,所以得到的结果只是一个“估计”,真实的总体平均值可能是21或26等等,我们不知道会与24差多少,因此又进化出新的估计形式——区间估计:

区间估计结论的形式是这样的:

“总体的估计平均值 有90%的可能 在20至28之间。”

这种描述拥有更多的信息,更利于作为一些决策的依据。

利用数据 预测未来

平均值的点估计

问题:“已知样本(n组数据)的平均值为M,请问总体(N组数据)的平均值是多少?”

直觉告诉我们,总体平均值也是M呗!

直觉是正确的。第7课我们讲了中心极限定理——

分布的度量与中心极限定理的涵义与应用场景

实际上展现的就是这种“样本与总体平均值一致的特性”,称为“平均值的无偏性”

另外,我们也能知道,假如样本数据量越来越大,那么得到的平均值肯定越来越准确。(极端情况,当n=N时,样本信息就完全等于总体信息了。)

这也就意味着,当n越来越大时,样本平均值的分布会越来越瘦(集中在平均值附近),事实上,可以证明:

样本平均值的方差 = 总体方差/n

方差的点估计

上面我们知道了“总体的均值可以直接用样本的均值来估计”,称为“无偏性”,那么方差是否也有“无偏性”呢?

也有,但是有一个前提,就是样本方差要使用贝赛尔修正形式的方差。

简单地讲,如果要使用样本方差来估计总体,则样本方差要将n修正成n-1的形式:

样本方差——贝赛尔修正形式

这时,我们就可以用样本方差来估计总体方差了。

理解贝赛尔修正

还记得总体方差的表示形式么:

总体方差

为啥总体方差中使用n,而样本方差中就要用n-1呢?

相信许多教材中给出了严密的证明,但是怎么真正理解这背后的涵义呢?

其实,方差代表着“数据的离散程度”,那就要先定义是“相对于谁”的离散程度,很明显,公式中定义的是“相对于均值”。

对于样本来说,已知n个数据后,均值M显然可以明确计算出来,是确定的就在那里的一个数字,换句话说,其实我们真正只需要知道n-1个数据,第n个数据就可以算出来了。

这种意义可以表述为:

“x-M 的自由度是 n-1”

学过线性代数的同学肯定易于理解这里的“自由度”的概念,就是“秩”的意思,相当于第 n 个数据是可以通过前 n-1 个数据经过“线性变换”得到的。

理解线性代数核心算法:矩阵乘法是维度变换

那么,为什么总体的方差自由度却是 n 呢?

因为,总体的均值是未知的。

不对啊,前面不是讲过么,总体的均值可以用样本的均值去估计啊?

注意,这只是“估计”

总体的均值我们永远是不知道的,就好像测量一个物体的长度,我们可以测量n次(样本),但是长度的“真实值”我们永远不可能知道!

测量问题是典型的估计问题

区间估计1——已知总体方差

假设已有的经验告诉我们,测量一个量(总体)的分布是正态分布且方差已知,现在进行了n次测量(样本),那么测量结果如何?

(方差代表着一种“测量手段的精度能力”,所以往往由于这种测量手段已经使用过多次了,因此方差很可能是已知的。)

这里再翻译一下问题,问的是:如何对真实值(总体)的平均值进行区间估计

其实很简单,我们上面讲过:

样本平均值的方差 = 总体方差/n

所以,相当于我们”知道了样本平均值的分布“——

正态分布(平均值=M , 方差=总体方差/n)

那么,咱们想求平均值的区间估计怎么求?查表或者用MATLAB算就可以了!

比如最简单的1sigma区间:

(sigma是标准差=方差的开方=(总体方差/n)的开方)

平均值在[ m-sigma , m+sigma] 区间的可能性为68%

2sigma区间:

平均值在[ m-2sigma , m+2sigma] 区间的可能性为95%

上面结论中得到的区间称为:

置信区间

这些数字 68% 95% 等,称为:

置信度

区间估计2——不知总体方差

上面是知道总体方差的情况,我们直接可以求出样本平均值的方差,进而得到正态分布;但是,如果我们不知道总体方差呢?

那么,我们就先用样本估计一个总体方差吧,这个操作就是上面讲过的“方差的点估计”啊,还记得咱们讨论的要使用贝赛尔修正形式的方差(自由度为n-1)的那个方法吧。

只是,这样的话,样本平均值的分布,就不在是正态分布了,而变成了——

T分布

T分布只有一个参数,即自由度v,这里 v 其实就是 n-1。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。如发现有害或侵权内容,请点击这里 或 拨打24小时举报电话:4000070609 与我们联系。

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多
    喜欢该文的人也喜欢 更多

    ×
    ×

    ¥.00

    微信或支付宝扫码支付:

    开通即同意《个图VIP服务协议》

    全部>>