《深入浅出统计学》豆知识摘录1

excel05 2021-03-06

展开全文

直方图和条图的区别

条型图，用于描述分类型数据较多。

直方图，用于描述数值型数据的分组。

直方图：图上的长方形之间无间隔，每个长方形的面积和频数成比例。

⚠️：

画图时，边界线是199和200的平均数。但最终取决于舍入的方法。

折线图：体现趋势

体现一种数值型类型数据的趋势，有预测功效

在一张图可以放置多批数据。

2平均数

平均数有多种。

均值
中位数
众数
。。。

均值 (读音：缪)

异常值：和其他数据格格不入的极高或极低的数值

偏斜数据：当异常值将数据向左或右拉时，即产生偏斜数据。

向右偏斜，数据集合的右边有偏大的异常值。导致均值被被拉向了右边。

均值的危害：

给出一个不存在于数据集中区的数值。

中位数

属于一种平均数。把数据集排序，正中的数叫做中位数（中间值）

求中位数：

如果数据集合有n个数，n是奇数，则中位数是第（n+1）/2个数

如果n是偶数，则中间2个数相加，然后除以2。得到的数就是中位数，最后的计算公式也是(n+1)/2

作用

如果遇到异常值，用中位数更能反应数据集合。

中位数的危害：

也可能不位于数据集中区域。比如： {19,20,21, 70, 114,115,116} ，70是中位数，但这个集合其实分成2块数据集中区。

具体问题具体分析。

众数

第三种平均数。即一组数中出现频次最高的数值。

众数可能不只一个：

上面的数据也称为：双峰数据。即这批数据有2个众数，体现2种趋势。

众数是唯一可以用于类别数据

求众数：

把数据中不同类别/数值的数分组
每个数值/类别的频数
找出出现频次最高的数，就是众数。

总结：

3 分散性和变异性的度量

这三组数据的均值，中位数，众数都是10

他们的区别体现在分散性。

全距

最大值-最小值。用于衡量数据集合的分散程度，宽度。

缺陷：

没法描述，数据的分布形态。
如果数据集中有异常值，更会误导。

摆脱异常值->迷你距-> 四分位数

Q3-Q1的值被称为四分位距。
Q3是上四分位数。
Q1是下四分位数。

四分位距，用于度量数据分散的程度，是标准的，可复用的。

不再受到异常值干扰，
可以度量数据的分散程度（分散形态）。

箱线图可以表示四分位数

全距和四分位距共同的缺陷：

无法知道，最大值，最小值的频次，出现的频率。
所以无法更精确的度量变异性。

变异性比分散性更具体--方差

显然，图2的数值和均值的距离更近。利用分散性看出球员的稳定程度，或者说：能够度量球员得分的“变异性”

度量各个数值和均值的平均距离，并且防止相加后正负抵消。使用。

方差，标准差σ（sigma）

标准差

可以整体度量数据集的分散性。描述了典型值和均值的距离。如果标准差较大，意味着数值距离均值较远。

标准分 z分

对不同数据集的数据值进行比较的一种方法。

通过这种方法，把数值视为来自同一个数据集。然后比较。

一般主观判断偏离均值3个标准差的值，就是异常值。

4 概率计算

事件：有概率的事情。

概率：0-1之间的数值，0代表不可能发生，1代表一定发生。

维恩图：概率的图形表示。

用于检验交集，表现事件之间是互斥关系的时候，有利用分析。 =

对立/互斥事件

相交事件

如果两个事件相交，则这两个事件可能同时发生。引出了交集和并集。

數學符號σ（sigma）

P(AUB) = P(A)+P(B)- P(A∩B)

条件概率和概率树

画概率树，可以处理/计算条件概率。

⚠️，每一级分组的所有概率之和=1.

全概率公式

P(B) = P(A∩B) + P(A^∎∩B)

通过全概率公式和条件概率公式，就可以推导出

贝叶斯公式:

P(B) = P(A∩B) + P(A^∎∩B)
P(A∩B) = P(A)*P(B|A) ，
P(A|B)= P(A∩B) / P(B) , 得到贝叶斯公式：

在不知道每种概率的情况下，计算逆条件概率。

贝叶斯定理：如果有n个互斥并且穷举的事件：A₁...A_n , 而B是另一个事件，则：

⚠️概率树或贝叶斯公式必须记住其一。

相关事件：A和B的概率互相影响。

独立事件：各个独立不影响： P(A|B) = P(A)

通过条件概率公式：P(A|B) = P(A∩B) / P(B) , 推导出乘法公式：P(A∩B) = P(A) * P(B)

⚠️互斥事件，是相关事件。因为事件A发生，B就一定不发生。加法公式：P(A) + P(B) = 1，

事件的相关性决定是相关，还是独立：

独立：用乘法公式。
相关：并且事件之间互斥，则用加法公式。

例子：

提示：

三人选择去哪个餐厅是独立事件。即一人的选择不会影响另一人。（他们没带手机）
使用概率树，从罗恩开始。

5 离散概率分布的运用--善用期望

如何利用概率分布来预测长期结果
如何度量这些预测结果的确定性

数学期望

离散变量X的数学期望公式： E(X) = ∑xP(X = x)

⚠️有时候也会用u来数学期望。因为均值和期望就是一对儿双胞胎。

知道了E(X)，就知道了未来长期的每次的结果。

但是E(X)不能提供有关数值分散性的任何信息。

答：考虑到E(X)其实就是一种平均数，因此使用方差。

方差

Var(X) = E(X - u)²= ∑(x -u)²P(X = x)

概率分布的方差/标准差用于度量一些特定数值的概率的分散情况。

方差越小，每次结果就越接近期望值。
方差越大，每次结果的不确定性就越大。

线性变换

如果给定变量出现概率不变，这个变量的可能值的集合都做了aX+b的运算转换，把这个叫做线性变换。期望和方差同步用公式转换，不用重新计算新的方差和期望。

概率分布描述了一个给定变量的所有可能结果的概率。

期望是长期的平均结果E（x）, u表示。

当变量X按照aX+b的形式发生变化（a,b是常数），叫做线性变换，数学期望和方差可以同步转换：

E(aX+b) = aE(X) + b

Var(aX + b) = a²Var(x)

E(X) + E(Y) = E(X + Y)

如果两个随机变量是独立变量，则

相加运算：
- E(X) + E(Y) = E(X + Y)
- Var(X+Y) = Var(X) + Var(Y)
减法运算：
- E(X) - E(Y) = E(X - Y)
- Var(X-Y) = Var(X) + Var(Y) ⚠️是相加，因为变异程度加大了，所以方差也变大。

6 排列组合

排列：使用阶乘 n!

圆形排列：(n-1)!

按照类型排名：

问题：

答案：

把5匹骆驼看成一个对象，巨型骆驼。

那么赛场上就有6只动物，因此排列方式就是：

6! /(3!*2!) = 60

而10只动物的排列是10! / (3!2!5!) = 252

所以答案是60/252

排列

从一个较大对象群体中取出一定数目的对象进行排序，并得出排序方式总数目。

7 几何分布，二项分布，柏松分布。

几何分布 X~Geo(p)

由一系列相同的试验组成。 ⚠️，无限次试验。
每次试验由2种可能的结果，其中一种表示成功，另一种失败
每次试验成功的概率都相同，用p表示；失败的概率也相同， 1-p表示。
试验是相互独立的。
想要知道：为了取得第一次成功需要多少次试验。

第r次成功的概率

P(X=r) = p*(1-p)^r-1

⚠️r是特定数值，这里指第4次是成功，之前的都是失败。

几何分布的不对等式

P(X > r) = (1-p)^r

⚠️这里的P(X > r), 指为了取得第一次成功需要试验r次以上的概率。前r次试验都是失败的。

由此推导出：

P(X <= r) = 1 - P(X > r) ⚠️P(X <= r)是指为了取得第一次成功需要试验r次或r次以下的概率。两者对立的。

P(X <= r) = 1 - (1-p)^r

如果一个变量X的概率符合几何分布，并且单次试验的成功概率是p, 则可以写成 x ~ Geo(p) Geometry几何（数学的分支。）

x ~ Geo(0.2)

通过将xP(X=x)的累加画出图后，发现x接近5。E(X) = 5 = 1 / 0.2

几何分布的期望：E(X) = 1/ p

方差：Var(X) = E(X²) - E²(X) = (1-p)/ p²

总结

3个概率公式，期望公式和方差公式。

P(X=r) = p*(1-p)^r-1
P(X > r) = (1-p)^r
P(X <= r) = 1 - (1-p)^r
E(X) = 1/ p
Var(X) = E(X²) - E²(X) = (1-p)/ p²

二项分布

由一系列相同的n个试验组成。⚠️是有限的次数。n个。
每次试验由2种可能的结果，其中一种表示成功，另一种失败
每次试验成功的概率都相同，用p表示；失败的概率也相同， 1-p表示。
试验是相互独立的。
求， n次试验中的r次成功的次数。

P(X = r) = ⁿC_r*p^r*(1-p)^n-r

ⁿC_r= n! / [ r!*(n-r)! ]

X~ B(n, p)表示二项分布

期望： E(X) = np

方差： Var(X) = np(1-p)

几何分布和二项分布的区别：

试验的目的不同。

几何分布，求的是第一次成功之前需要试验多少次
二项分布，固定试验次数n，求成功一定次数r的概率。

泊松分布 x~Po(ℷ)

描述单位时间内随机事件发生的次数的概率分布。也是一个常见的离散型分布。

单独事件在给定区间内的随机，独立发生。给定区间可以是时间或空间。
已经知晓该区间的事件平均发生次数/发生率，并且为有限数值。用ℷ表示

我的理解：比如过去百年中，每10年都会发生战争，平均每十年发生4次战争。求未来10年发生r次战争的概率。r可以是0也可以是任意整数。

均值，期望和方差都是ℷ

备注：⚠️e=2.718是一个常数，用于计算复利和高等概率理论的各种应用。

和其他离散型概率分布的区别：

无需做试验，从历史得到数据。

伪装的柏松分布 X~Po(n*p)

当二项分布的n很大（大于50），并且p很小接近0，则np约等于np(1-p)。因此类似于柏松分布的期望=方差。

所以可以用柏松分布替代二项分布。

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自： excel05 > 《数学》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

excel05

关注对话

TA的最新馆藏

一年级数学《看图列式》全解析，30分钟让你全面掌握，从此不愁
我说学Python根本用不了十天！
Python | Numpy 图文详解（向量、切片索引、广播）
22个PYTHON万用公式！
Python爬虫之bs4，非常详细
Pandas 看这一篇就够了！一小时快速通关！

喜欢该文的人也喜欢更多

热门阅读换一换