数据分析中的统计学基础知识

宋懵懵说数据 2020-03-27

展开全文

统计学在我们生活中其实运用面还挺广的，比如社会调查的结果分析都会运用到统计学的知识。

我们今天就来分享一下统计学的一些基础的知识。

大致而言，统计学由“描述统计”和“推论统计”两部分构成。

描述统计就是从取得的数据中抽取其特征的技术。

推论统计是将统计学与概率理论相结合。对“无法整体把握的大的对象”或“还未发生而未来会发生的事情”进行推测。

一、描述统计

1、平均值

平均值就是用数据的合计除以数据的个数

数据分析中的统计学基础知识

平均数还可以通过以下公式求得

平均数=组值×相对频数的合计

2 、方差

偏差=数据的数值-平均值

方差=[（偏差的平方）的合计]/（数据数）

公式：

数据分析中的统计学基础知识

3、标准差

标准差=方差的均方根

数据分析中的统计学基础知识

标准差反映组内个体间的离散程度（波动率）。

标准差的含义在统计学中很重要！

标准差越大，数据的离散程度越大，波动越大。

标准差是数据特殊性特殊性额的评价基准

±1倍标准差以内包含约70%数据

一组数据中某个数据的偏差在±1倍标准差左右，可以说这是“平常的数据”

±2倍标准差以外包含约5%的数据

如果在±2倍标准差以外，则可以说是“特殊的数据”

4、正态分布

概率密度函数

连续型随机变量的概率密度函数是一个描述这个随机变量的输出值在某个确定的取值点附近的可能性的函数。而随机变量的取值落在某个区域之内的概率则为概率密度函数在这个区域上的积分。

正态分布

若随机变量X服从一个数学期望为μ、标准方差为σ2的高斯分布，记为：

X∼N(μ,σ2)，

则其概率密度函数为

数据分析中的统计学基础知识

正态分布的期望值μ决定了其位置，其标准差σ决定了分布的幅度。因其曲线呈钟形，因此人们又常常称之为钟形曲线。我们通常所说的标准正态分布是μ = 0,σ = 1的正态分布。

数据分析中的统计学基础知识

正态分布的特性：

1）正态分布的95%命中区间是(μ-1.96σ,μ+1.96σ)

2）变量X服从平均值为μ，标准差为σ，可以利用公式将其变换为标准正态分布

Z=(X-μ)/ σ

3）变量X服从平均值为μ，标准差为σ的正态分布时，95%的预测命中区间为解不等式

-1.96≤（X-μ）/ σ≤+1.96 所得的范围

5、假设检验

母群体服从正态分布时，可以通过假设总体参数，来检验观测值是否落在95%的命中区间内。通过以下公式可以计算基于假设的总体参数的观测值的范围

-1.96≤（X-μ）/ σ≤+1.96

如果观测值在这个范围内，接受假设，假设成立；如果不在这个范围内，假设被舍弃。

6、区间估计

区间估计针对母群体的总体参数，在假定总体参数的情况下，只集合列现实观测到的数据在观测数据的“95%预测命中区间”的总体参数。根据区间估计缺点的总体参数的范围叫做“95%置信区间”

95%置信区间是这样一种区间：它由各种各样的观测值用相同的方法进行区间估计，其中95%包含正确的总体参数。

二、推论统计

正态分布母群体

正态分布母群体的总体均值为μ，总体标准差为σ时，n个观测数据x的样本均值x的分布仍为正态分布，且样本均值x的期望仍为μ，但标准差为σ/√n（标准误差）

已知总体方差，估计正态母群体的总体均值

正态母群体中已知总体标准差为σ时，可以从n个样本估计整体均值μ

保留满足：

-1.96≤（x -μ）/（σ/√n）≤1.96，求得μ的95%置信区间

2、已知总体均值，估计正态母群体的总体方差

1）由n个观测值计算V

数据分析中的统计学基础知识

2）从卡方分布临界表中求得自由度为n的卡方分布的95%预测命中区间

数据分析中的统计学基础知识

卡方分布临界值表的行索引为自由度，列索引为概率

值的含义可以理解为自由度为行索引时，大于该值的数据的概率为列索引

例如：对于自由度为5的卡方分布V来说，V的值有95%在“0.8312≤V≤12.8325”中。

3）解不等式求出σ²的95%置信区间。

3、未知总体均值，估计正态母群体的总体方差

步骤：

1）计算样本均值x，根据样本均值计算样本方差s²

s²=[(x1-x)²+(x2-x)²+…(xn-x)²]/n

2）计算统计量W

数据分析中的统计学基础知识

3）确认的自由度为n-1的W的95%预测命中区间（a≤W≤b）

4）求出σ²的95%置信区间

4、未知总体方差，估计正态母群体的总体均值

步骤：

1）计算样本均值x和样本标准差s

2）计算服从自由度n-1的t分布统计量T

数据分析中的统计学基础知识

3）根据t分布表查出自由度n-1的T的95%预测命中区间(-α≤T≤α)

数据分析中的统计学基础知识

例如自由度为10，T的95%命中区间的临界值为2.228，有-2.28≤T≤2.28

4）计算x–的95%置信区间

这四点是统计学中比较常用的基础知识，有比较大的收获吗？有想了解的可以留言哦！

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：宋懵懵说数据 > 《数据分析》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

宋懵懵说数据

关注对话

TA的最新馆藏

你工作效率低，一起来制作简单又好用的数据可视化吧
寻寻觅觅，终于有一款数据可视化工具适合你
讲解几个数据分析的常用指标
[转] 浅议如何选择适合的大数据分析工具
收藏收藏！数据分析必会的六大实用模型
讲解几个数据分析的常用指标

喜欢该文的人也喜欢更多

热门阅读换一换