本文约3100字,建议阅读7分钟 本文介绍了统计学知识。 今天继续来聊聊统计学的知识~ 关于“小样本”预测“大总体” 现实生活中,总体的数量如果过于庞大我们无法获取总体中每个数据的数值,进行对总体的特征提取进而完成分析工作。那么接下来就用到了本章节的知识。 1. 抽取样本
2. 预测总体(点估计预测,区间估计预测) 点估计量--- 一个总参数的点估计量就是可用于估计总体参数数值的某个函数或算式。 场景1: 样本无偏的情况下,已知样本,预测总体的均值,方差。 (1) 样本的均值 = 总体的估算均值(总体均值的点估计量) ≈ 总体实际均值(误差是否可接受) (2)总体方差 估计总体方差 场景2:已知总体,研究抽取样本的概率分布 比例抽样分布:考虑从同一个总体中取得所有大小为n的可能样本,由这些样本的比例形成一个分布,这就是“比例抽样分布”。样本的比例就是随机变量。 举个栗子:已知所有的糖球(总体)中红色糖球比例为0.25。从总体中随机抽n个糖球,我们可以求用比例抽样分布求出这n个糖球中对应红球各种可能比例的概率。 样本均值分布:考虑同一个总体中所有大小为n的可能样本,然后用这个样本的均值形成分布,该分布就是“样本均值分布” ,样本的均值就是随机变量。 中心极限定理:如果从一个非正态总体X中抽出一个样本,且样本极大(至少大于30),则图片.png的分布近似正态分布。 区间估计量--- 点估计量是利用一个样本对总体进行估计,区间估计是利用样本组成的一段区间对样本进行估计。 举个栗子:今天下午3点下雨;今天下午3点到4点下雨。如果我们的目的是为了尽可能预测正确,你会使用那句话术? 如何求置信区间?(这里笔者讲一下思路,不画图码公式了,读者有兴趣可以查阅一下教材) 求置信区间简便公式(直接上皂片) 关于C值参数:置信水平 90% C=1.64 , 95% C=1.96 , 99% C=2.58 待补充知识一(t分布) 我们之前的区间预测有个前提,就是利用了中心极限定理,当样本量足够大的时候(通常大于30),均值抽样分布近似于正态分布。若样本量不够大呢?这是同样的思路,只是样本均值分布将近似于另一种分布处理更加准确,那就是t分布。这里笔者直接放张图,不做拓展了。 待补充知识二(卡方分布)----注意待补充不代表不重要,是笔者水平有限,目前还不能用简单的语言概述其中的精髓。 卡方分布的定义 若n个相互独立的随机变量ξ、ξ、……、ξn ,均服从标准正态分布,则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布。
3. 验证结果(假设检验) 假设检验是一种方法用于验证结果是否真实可靠。具体操作分为六个步骤。 两类错误---即使我们进行了“假设检验”依然无法保证决策是百分百正确的,会出现两类错误
第三部分小节: 1. 无偏抽样 2. 点估计量预测(已知样本预测总体,已知总体预测样本) 3. 区间估计量预测(求置信区间) 4. 假设检验 相关与回归(y=ax+b) 这里介绍的相关和回归是关于二维双变量的最简单最实用的线性回归,非线性回归这里不暂不做拓展。 散点图:显示出二变量数据的模式 相关性:变量之间的数学关系。 线性相关性:两个变量之间呈现的直线相关关系。 最佳拟合直线:与数据点拟合程度最高的线。(即每个因变量的值与实际值的误差平方和最小) 误差平方和SSE: 线性回归法:求最佳拟合直线的方法(y=ax+b),就是求参数a和b 斜率a公式: b公式: 相关系数r:表征描述的数据与最佳拟合线偏离的距离。(r=-1完全负相关,r=1完全正相关,r=0不相关) r公式: 结束语 笔者这里梳理了统计与概率学最基础的概念知识,尽量阐述清楚这些概念知识之间关联的关系,以及应用的场景。底层概念是上层应用的基础,当今浮躁的“机器学习”,“神经网络”,“AI自适应”这些高大上的关键字满天飞。笔者认为踏踏实实的把“基础”打扎实,才是向上发展的唯一途径。 编辑:王菁 |
|