一、概率论基础
不确定性产生的三种来源: (1)建模系统存在随机性 (2)不完全观测: 确定的系统,但是观测值不完全,因为有些值时不可能完全观测到的。 (3)不完全建模:可以理解建模时候,舍弃的部分值导致了模型预测时出现的不确定性
随机变量可以使离散的和连续的。例如: 离散随机变量:观测天气状态x, x可以是(多云、晴天,雷暴天气)定量数据 连续随机变量:统计抽烟人群年龄x, x可以是 [15, 65] 区间的任一值
(1)离散型随机变量 + 概率质量函数 离散型随机变量的概率分布使用概率质量函数(PMF)来表示,用字母P来表示,则有P(x) 函数P是x的概率质量函数必须满足以下条件: A、P定义域是x的所有可能状态: 如x的可能状态为(x1,x2,x3),恰好 (x1,x2,x3)是P的整个定义域 B、任意x,有 0 ≤ P(x)≤ 1 : P(x) = 0, 表示不会发生;P(x) = 1表示一定发生。P的值域必须处于[0,1] 之间 C、x的所有状态的概率和为1 (归一化). P(X=x1) +P(X=x1) + ... + P(X=xn) = 1 (2)连续型随机变量 + 概率密度函数 连续型随机变量用概率密度函数(PDF)表示, 用p(小写)表示 函数p是x的 概率密度函数必须满足以下条件: A、P定义域是x的所有可能状态 B、任意x, p(x) ≥0。 (不要求 p(x) ≤ 1) C、 假设x落在区间[a,b]上, 可以通过对概率密度函数求导得到概率真实值: (3)联合概率分布:概率质量函数可以同时作用于多个随机变量的, 如P(X=x, Y=y)表示x和y同时发生的概率
边缘概率是针对于联合概率分布,用于了解一个子集的概率分布,其计算方式就是针对某个随机变量求导,如下: 计算联合概率分布P(X=x, Y=y) :
对任意x, 都有: 相当于对于
条件概率在统计学里这样描述的,在事件B发生的条件下,事件A发生的概率,表示为 P( B | A)。 统计学中的表示方法: P(A | B) = P(A B) / P(B) = P(A U B)/ P(B), 表示 A在B条件下发生的概率= AB共同发生的概率 / B 发生的概率。 P(AB)表示A和B同时发生的概率。 ML中的表示:
独立性:如果事件A和事件B同时发生的概率 = 事件A发生的概率 × 事件B发生的概率,那么成事件A和事件B是相互独立的 P(AB) = P(A)P(B) 对于任意x和y,有如下式子: 条件独立性 : 给定事件C发生概率的条件下, 事件A和事件B同时发生的概率 = 事件C条件下,A发生的概率 × 事件C条件下,B发生的概率,那么说明事件A和事件B在给定事件C下条件独立。 P(A,B |C) = P(A|C) P(B|C)
P(a, b, c) = P(a | b, c) * P(b, c) = P(a | b, c) * P(b | c) * P(c)
已知 A在B条件下发生的概率 P(A | B), B发生的概率P(B), 求 P(B | A)发生的概率。 贝叶斯定理如下: P(B | A) = P(A | B)·P(B) / P(A)
离散型随机变量: 连续型随机变量: ![]()
![]()
令E(X)=μ1, E(Y)=μ2,那么x,y的协方差为: cov(X,Y)= E((X-μ1) (Y-μ2)) cov(X,Y)= E(X·Y)- μ1μ2 若| cov(X,Y)| 很大,表示变量变化大,且各自距离均值很远。 cov(X,Y) > 0 , 两个变量倾向于 取较大值 cov(X,Y) < 0, 一个变量较大值,一个较小值,反之亦然。
(1)伯努利分布:二值随机变量分布,0-1分布。 P(x=0)= a, p(x=1) = 1-a (2)多项式分布: (3)高斯分布 正太分布又称为 高斯分布 标准正态分布: μ=0, = 1的正态分布。 概率密度函数, 其为一个钟型曲线: ![]()
A、建模时,很多真实情况比较接近正态分布。中心极限定理也说明很多随机变量的和/均值等都服从正态分布 B、相同方差的所有可能概率分布中, 正态分布有最大的不确定性。 所以正态分布是先验知识最少的分布。噪声较多的正态分布,其不确定性较高,如果模型能表现较好,那么说明模型鲁棒性较高。 正态分布推广到多维空间,就有多维正态分布 (4)指数分布和laplace分布(拉普拉斯分布): 二、信息论基础
一个不太可能发生的是发生了,要比非常可能发生的事,提供更多的信息
(1)、 非常可能发生的事信息量少,极端情况下,确保能够发生的事件应该无信息量 (2)、 较不可能发生的事,具有较高的信息量 (3)、 独立事件应具有增量的信息
定义(以e为底的自然对数) : ![]() 单位:奈特(1奈特= 1/e的概率观测到一个事件所获取的信息量)
公式: ![]() 一个分部的香农熵是遵循这个分布的事件所产生的期望信息总量 若X为连续的, 香农熵被称为 微分熵
![]() 当且仅当两个分布相同时,散度为0。连续型随机变量,“几乎处处”是相同的分布。
![]() |
|