搜索

分享

QQ空间 QQ好友新浪微博微信

统计学知识大梳理！

geoallan 2023-10-10 发布于四川

展开全文

本文约3100字，建议阅读7分钟

本文介绍了统计学知识。

今天继续来聊聊统计学的知识~

关于“小样本”预测“大总体”

现实生活中，总体的数量如果过于庞大我们无法获取总体中每个数据的数值，进行对总体的特征提取进而完成分析工作。那么接下来就用到了本章节的知识。

统计学知识大梳理！

1. 抽取样本

总体：你研究的所有事件的集合
样本：总体中选取相对较小的集合，用于做出关于总体本身的结论
偏倚：样本不能代表目标总体，说明该样本存在偏倚
简单随机抽样：随机抽取单位形成样本。
分成抽样：总体分成几组或者几层，对每一层执行简单随机抽样
系统抽样：选取一个参数K，每到第K个抽样单位，抽样一次。

2. 预测总体（点估计预测，区间估计预测）

点估计量--- 一个总参数的点估计量就是可用于估计总体参数数值的某个函数或算式。

场景1：样本无偏的情况下，已知样本，预测总体的均值，方差。

（1）样本的均值 = 总体的估算均值（总体均值的点估计量） ≈ 总体实际均值（误差是否可接受）

统计学知识大梳理！

（2）总体方差估计总体方差

统计学知识大梳理！

场景2：已知总体，研究抽取样本的概率分布

比例抽样分布：考虑从同一个总体中取得所有大小为n的可能样本，由这些样本的比例形成一个分布，这就是“比例抽样分布”。样本的比例就是随机变量。

举个栗子：已知所有的糖球（总体）中红色糖球比例为0.25。从总体中随机抽n个糖球，我们可以求用比例抽样分布求出这n个糖球中对应红球各种可能比例的概率。

统计学知识大梳理！

样本均值分布：考虑同一个总体中所有大小为n的可能样本，然后用这个样本的均值形成分布，该分布就是“样本均值分布” ，样本的均值就是随机变量。

统计学知识大梳理！

中心极限定理：如果从一个非正态总体X中抽出一个样本，且样本极大（至少大于30），则图片.png的分布近似正态分布。

统计学知识大梳理！

区间估计量--- 点估计量是利用一个样本对总体进行估计，区间估计是利用样本组成的一段区间对样本进行估计。

举个栗子：今天下午3点下雨；今天下午3点到4点下雨。如果我们的目的是为了尽可能预测正确，你会使用那句话术？

如何求置信区间？（这里笔者讲一下思路，不画图码公式了，读者有兴趣可以查阅一下教材）

统计学知识大梳理！

求置信区间简便公式（直接上皂片）

关于C值参数：置信水平 90% C=1.64 ， 95% C=1.96 ， 99% C=2.58

统计学知识大梳理！

待补充知识一（t分布）

我们之前的区间预测有个前提，就是利用了中心极限定理，当样本量足够大的时候（通常大于30），均值抽样分布近似于正态分布。若样本量不够大呢？这是同样的思路，只是样本均值分布将近似于另一种分布处理更加准确，那就是t分布。这里笔者直接放张图，不做拓展了。

统计学知识大梳理！

待补充知识二（卡方分布）----注意待补充不代表不重要，是笔者水平有限，目前还不能用简单的语言概述其中的精髓。

卡方分布的定义

若n个相互独立的随机变量ξ、ξ、……、ξn ，均服从标准正态分布，则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量，其分布规律称为卡方分布。

统计学知识大梳理！

卡方分布的应用场景
用途1：用于检验拟合优度。也就是检验一组给定的数据与指定分布的吻合程度；
用途2：检验两个变量的独立性。通过卡方分布可以检查变量之间是否存在某种关联:

3. 验证结果（假设检验）

假设检验是一种方法用于验证结果是否真实可靠。具体操作分为六个步骤。

统计学知识大梳理！

两类错误---即使我们进行了“假设检验”依然无法保证决策是百分百正确的，会出现两类错误

统计学知识大梳理！

第一类错误：拒绝了一个正确的假设，错杀了一个好人
第二类错误：接收了一个错误的假设，放过了一个坏人

第三部分小节：

1. 无偏抽样

2. 点估计量预测（已知样本预测总体，已知总体预测样本）

3. 区间估计量预测（求置信区间）

4. 假设检验

相关与回归（y=ax+b）

这里介绍的相关和回归是关于二维双变量的最简单最实用的线性回归，非线性回归这里不暂不做拓展。

散点图：显示出二变量数据的模式

相关性：变量之间的数学关系。

线性相关性：两个变量之间呈现的直线相关关系。

最佳拟合直线：与数据点拟合程度最高的线。（即每个因变量的值与实际值的误差平方和最小）

误差平方和SSE：

线性回归法：求最佳拟合直线的方法（y=ax+b），就是求参数a和b

斜率a公式：

统计学知识大梳理！

b公式：

统计学知识大梳理！

相关系数r：表征描述的数据与最佳拟合线偏离的距离。（r=-1完全负相关，r=1完全正相关，r=0不相关）

r公式：

统计学知识大梳理！

结束语

笔者这里梳理了统计与概率学最基础的概念知识，尽量阐述清楚这些概念知识之间关联的关系，以及应用的场景。底层概念是上层应用的基础，当今浮躁的“机器学习”，“神经网络”，“AI自适应”这些高大上的关键字满天飞。笔者认为踏踏实实的把“基础”打扎实，才是向上发展的唯一途径。

编辑：王菁

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自： geoallan > 《数据分析》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

geoallan

关注对话

TA的最新馆藏

长期坚持健身有什么坏处？网友的评论再一次刷新了我的三观和认知
“针火”相传佑四方——桃源县茶庵铺镇药火针传承人满超
国医大师贺普仁，针灸界公认的泰斗级人物，他的火针绝技享誉天下|医学家|泰斗|火针|贺普仁|针灸界|针灸疗法
[转] 倪海厦：脂肪瘤是痰湿淤堵中医手法可消除
MDPI旗下SCI、SSCI期刊，实时IF2023
用ChatGPT翻译？小心别被它“坑”了！

喜欢该文的人也喜欢更多

热门阅读换一换