直方图和条图的区别条型图,用于描述分类型数据较多。 直方图,用于描述数值型数据的分组。 直方图:图上的长方形之间无间隔, 每个长方形的面积和频数成比例。 ⚠️: 画图时,边界线是199和200的平均数。但最终取决于舍入的方法。 折线图:体现趋势体现一种数值型类型数据的趋势,有预测功效 在一张图可以放置多批数据。 2平均数平均数有多种。
均值 (读音:缪)
异常值: 和其他数据格格不入的极高或极低的数值偏斜数据:当异常值将数据向左或右拉时,即产生偏斜数据。
均值的危害:给出一个不存在于数据集中区的数值。 中位数属于一种平均数。把数据集排序,正中的数叫做中位数(中间值) 求中位数: 如果数据集合有n个数,n是奇数,则中位数是第(n+1)/2个数 如果n是偶数,则中间2个数相加,然后除以2。得到的数就是中位数, 最后的计算公式也是(n+1)/2 作用 如果遇到异常值,用中位数更能反应数据集合。 中位数的危害:也可能不位于数据集中区域。比如: {19,20,21, 70, 114,115,116} ,70是中位数,但这个集合其实分成2块数据集中区。 具体问题具体分析。 众数第三种平均数。即一组数中出现频次最高的数值。 众数可能不只一个: 上面的数据也称为:双峰数据。即这批数据有2个众数,体现2种趋势。 众数是唯一可以用于类别数据 求众数:
总结:3 分散性和变异性的度量
这三组数据的均值,中位数,众数都是10 他们的区别体现在分散性。 全距最大值-最小值。用于衡量数据集合的分散程度, 宽度。 缺陷:
摆脱异常值->迷你距-> 四分位数
四分位距,用于度量数据分散的程度,是标准的,可复用的。
箱线图可以表示四分位数 全距和四分位距共同的缺陷:
变异性比分散性更具体--方差显然,图2的数值和均值的距离更近。 利用分散性看出球员的稳定程度,或者说:能够度量球员得分的“变异性” 度量各个数值和均值的平均距离,并且防止相加后正负抵消。使用。 方差 , 标准差σ(sigma)标准差 可以整体度量数据集的分散性。描述了典型值和均值的距离。如果标准差较大,意味着数值距离均值较远。 标准分 z分对不同数据集的数据值进行比较的一种方法。 通过这种方法,把数值视为来自同一个数据集。然后比较。 一般主观判断偏离均值3个标准差的值,就是异常值。 4 概率计算事件:有概率的事情。 概率:0-1之间的数值,0代表不可能发生,1代表一定发生。 维恩图: 概率的图形表示。用于检验交集,表现事件之间是互斥关系的时候,有利用分析。 = 对立/互斥事件相交事件如果两个事件相交,则这两个事件可能同时发生。 引出了交集和并集。 數學符號σ(sigma) P(AUB) = P(A)+P(B)- P(A∩B) 条件概率和概率树画概率树,可以处理/计算条件概率。 ⚠️,每一级分组的所有概率之和=1.
全概率公式P(B) = P(A∩B) + P(A∎∩B) 通过全概率公式和条件概率公式,就可以推导出 贝叶斯公式:
在不知道每种概率的情况下,计算逆条件概率。 贝叶斯定理:如果有n个互斥并且穷举的事件:A1...An , 而B是另一个事件,则: ⚠️概率树或贝叶斯公式必须记住其一。 相关事件:A和B的概率互相影响。 独立事件:各个独立不影响: P(A|B) = P(A) 通过条件概率公式:P(A|B) = P(A∩B) / P(B) , 推导出乘法公式:P(A∩B) = P(A) * P(B) ⚠️互斥事件,是相关事件。因为事件A发生,B就一定不发生。 加法公式:P(A) + P(B) = 1, 事件的相关性决定是相关,还是独立:
例子: 提示:
5 离散概率分布的运用--善用期望
数学期望离散变量X的数学期望公式: E(X) = ∑xP(X = x) ⚠️有时候也会用u来数学期望。因为均值和期望就是一对儿双胞胎。 知道了E(X),就知道了未来长期的每次的结果。 但是E(X)不能提供有关数值分散性的任何信息。答:考虑到E(X)其实就是一种平均数,因此使用方差。 方差Var(X) = E(X - u)2 = ∑(x -u)2P(X = x) 概率分布的方差/标准差用于度量一些特定数值的概率的分散情况。
线性变换 如果给定变量出现概率不变,这个变量的可能值的集合都做了aX+b的运算转换,把这个叫做线性变换。期望和方差同步用公式转换,不用重新计算新的方差和期望。 概率分布描述了一个给定变量的所有可能结果的概率。 期望是长期的平均结果E(x), u表示。 当变量X按照aX+b的形式发生变化(a,b是常数),叫做线性变换,数学期望和方差可以同步转换: E(aX+b) = aE(X) + b Var(aX + b) = a2Var(x) E(X) + E(Y) = E(X + Y) 如果两个随机变量是独立变量,则
6 排列组合排列:使用阶乘 n!圆形排列:(n-1)!按照类型排名:问题: 答案: 把5匹骆驼看成一个对象,巨型骆驼。 那么赛场上就有6只动物,因此排列方式就是:
而10只动物的排列是10! / (3!2!5!) = 252 所以答案是60/252 排列从一个较大对象群体中取出一定数目的对象进行排序,并得出排序方式总数目。 7 几何分布, 二项分布, 柏松分布。几何分布 X~Geo(p)
第r次成功的概率P(X=r) = p*(1-p)r-1 ⚠️r是特定数值,这里指第4次是成功,之前的都是失败。 几何分布的不对等式P(X > r) = (1-p)r ⚠️这里的P(X > r), 指为了取得第一次成功需要试验r次以上的概率。 前r次试验都是失败的。 由此推导出: P(X <= r) = 1 - P(X > r) ⚠️P(X <= r)是指为了取得第一次成功需要试验r次或r次以下的概率。两者对立的。 P(X <= r) = 1 - (1-p)r 如果一个变量X的概率符合几何分布,并且单次试验的成功概率是p, 则可以写成 x ~ Geo(p) Geometry几何(数学的分支。) x ~ Geo(0.2)
通过将xP(X=x)的累加画出图后,发现x接近5。E(X) = 5 = 1 / 0.2 几何分布的期望:E(X) = 1/ p方差:Var(X) = E(X2) - E2(X) = (1-p)/ p2 总结3个概率公式,期望公式和方差公式。
二项分布
P(X = r) = nCr*pr*(1-p)n-r nCr = n! / [ r!*(n-r)! ] X~ B(n, p)表示二项分布期望: E(X) = np 方差: Var(X) = np(1-p) 几何分布和二项分布的区别:试验的目的不同。
泊松分布 x~Po(ℷ)描述单位时间内随机事件发生的次数的概率分布。也是一个常见的离散型分布。
我的理解:比如过去百年中,每10年都会发生战争,平均每十年发生4次战争。求未来10年发生r次战争的概率。r可以是0也可以是任意整数。 均值,期望和方差都是ℷ 备注:⚠️e=2.718是一个常数,用于计算复利和高等概率理论的各种应用。 和其他离散型概率分布的区别:无需做试验,从历史得到数据。 伪装的柏松分布 X~Po(n*p)当二项分布的n很大(大于50),并且p很小接近0,则np约等于np(1-p)。 因此类似于柏松分布的期望=方差。 所以可以用柏松分布替代二项分布。
|
|