Machine Learning 之概率论、信息论基础

鹏天阁隐龙斋主 2019-09-03

展开全文

ML中的概率论基础概念
概率分布
边缘概率
条件概率
贝叶斯定理(朴素贝叶斯算法那有介绍)：
期望、方差和协方差
ML常用概率分布
信息论基本想法：
基本性质
定义与部分概念

一、概率论基础

概率: 概率再机器学习中是处理不确定性。

不确定性产生的三种来源：

（1）建模系统存在随机性

（2）不完全观测: 确定的系统，但是观测值不完全，因为有些值时不可能完全观测到的。

（3）不完全建模：可以理解建模时候，舍弃的部分值导致了模型预测时出现的不确定性

随机变量：随机抽取不同值的变量，例如随机变量X，其含有不同值x1，x2,..., xn

随机变量可以使离散的和连续的。例如：

离散随机变量：观测天气状态x， x可以是（多云、晴天，雷暴天气）定量数据

连续随机变量：统计抽烟人群年龄x， x可以是 [15， 65] 区间的任一值

（1）离散型随机变量 + 概率质量函数

离散型随机变量的概率分布使用概率质量函数（PMF）来表示，用字母P来表示，则有P(x)

　　　函数P是x的概率质量函数必须满足以下条件：

　　A、P定义域是x的所有可能状态：如x的可能状态为（x1，x2，x3），恰好（x1，x2，x3）是P的整个定义域

　　B、任意x，有 0 ≤ P（x）≤ 1 : P(x) = 0, 表示不会发生；P(x) = 1表示一定发生。P的值域必须处于[0,1] 之间

　　C、x的所有状态的概率和为1 （归一化）. P(X=x1) +P(X=x1) + ... + P(X=xn) = 1

（2）连续型随机变量 + 概率密度函数

连续型随机变量用概率密度函数（PDF）表示，用p（小写）表示

　　　函数p是x的概率密度函数必须满足以下条件：

　　 A、P定义域是x的所有可能状态

　　B、任意x， p(x) ≥0。（不要求 p(x) ≤ 1）

　　C、

假设x落在区间[a,b]上，可以通过对概率密度函数求导得到概率真实值：

（3）联合概率分布：概率质量函数可以同时作用于多个随机变量的，如P（X=x, Y=y）表示x和y同时发生的概率

边缘概率是针对于联合概率分布，用于了解一个子集的概率分布，其计算方式就是针对某个随机变量求导，如下：

计算联合概率分布P(X=x, Y=y) ：

离散型随机变量：

对任意x，都有：

相当于对于

连续型随机变量

回到顶部

条件概率在统计学里这样描述的，在事件B发生的条件下，事件A发生的概率，表示为 P（ B | A）。

统计学中的表示方法：

P（A | B） = P(A B) / P（B） = P（A U B）/ P（B），表示 A在B条件下发生的概率= AB共同发生的概率 / B 发生的概率。 P（AB）表示A和B同时发生的概率。

ML中的表示：

独立性和条件独立性：

独立性：如果事件A和事件B同时发生的概率 = 事件A发生的概率 × 事件B发生的概率，那么成事件A和事件B是相互独立的

P（AB） = P（A）P（B）

对于任意x和y，有如下式子：

条件独立性：给定事件C发生概率的条件下，事件A和事件B同时发生的概率 = 事件C条件下，A发生的概率 × 事件C条件下，B发生的概率，那么说明事件A和事件B在给定事件C下条件独立。

P(A,B |C) = P(A|C) P(B|C)

链式法则：任何多维随机变量的联合概率分布，可以分解为只有一个变量的条件概率相乘的形式。

P(a, b, c) = P(a | b, c) * P(b, c)

　　　　 = P(a | b, c) * P(b | c) * P(c)

回到顶部
贝叶斯定理(朴素贝叶斯算法那有介绍)：

已知 A在B条件下发生的概率 P（A | B）， B发生的概率P（B），求 P（B | A）发生的概率。

贝叶斯定理如下：

P（B | A） = P(A | B)·P(B) / P(A)

期望：f（x）x由P产生，f作用于x时， f（x）的平均值。

离散型随机变量：

连续型随机变量：

方差：衡量随机变量的离散程度。方差= 随机变量与平均值的差的平方和的期望

标准差：方差的平方根
协方差：表示两个随机变量的关系。衡量两个变量线性相关的强度和这些变量的尺度

令E（X）=μ1， E（Y）=μ2，那么x，y的协方差为：

cov（X,Y）= E（(X-μ1) (Y-μ2)）

cov（X,Y）= E（X·Y）- μ1μ2

若| cov(X,Y)| 很大，表示变量变化大，且各自距离均值很远。

cov(X,Y) > 0 , 两个变量倾向于取较大值

cov(X,Y) < 0, 一个变量较大值，一个较小值，反之亦然。

（1）伯努利分布：二值随机变量分布，0-1分布。

P（x=0）= a， p(x=1) = 1-a

（2）多项式分布：

（3）高斯分布

正太分布又称为高斯分布

标准正态分布： μ=0， = 1的正态分布。

概率密度函数，其为一个钟型曲线：

高斯分布的优点：

A、建模时，很多真实情况比较接近正态分布。中心极限定理也说明很多随机变量的和/均值等都服从正态分布

B、相同方差的所有可能概率分布中，正态分布有最大的不确定性。所以正态分布是先验知识最少的分布。噪声较多的正态分布，其不确定性较高，如果模型能表现较好，那么说明模型鲁棒性较高。

正态分布推广到多维空间，就有多维正态分布

（4）指数分布和laplace分布（拉普拉斯分布）：

详情请见： https://blog.csdn.net/bqw18744018044/article/details/81192706

二、信息论基础

一个不太可能发生的是发生了，要比非常可能发生的事，提供更多的信息

（1）、非常可能发生的事信息量少，极端情况下，确保能够发生的事件应该无信息量

（2）、较不可能发生的事，具有较高的信息量

（3）、独立事件应具有增量的信息

自信息（处理单个输出）：

定义（以e为底的自然对数） :

单位：奈特（1奈特= 1/e的概率观测到一个事件所获取的信息量）

香农/比特（bit）：对整个概率分布的不确定性的量化度量。

公式：

一个分部的香农熵是遵循这个分布的事件所产生的期望信息总量

若X为连续的，香农熵被称为微分熵

KL散度：随机变量x有两个单独的概率分布P(x)和Q(x), 用KL散度来衡量两个分布的差异

当且仅当两个分布相同时，散度为0。连续型随机变量，“几乎处处”是相同的分布。

交叉熵：

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：鹏天阁隐龙斋主 > 《信息论》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

鹏天阁隐龙斋主

关注对话

TA的最新馆藏

[转] 情绪是一种感知的能量
[转] 纠缠于过去：情绪如何塑造你的记忆
[转] 1、原始情绪 2、替代情绪3、承接的情绪4、超越的情绪——周鼎文图片承接的情绪 “承接的情绪”不仅是系统排列的重要发现，对现代心理学而言也是重大的贡献。以海宁格先生的区分为基
[转] 情绪的产生到使用的全过程！
[转] 人的情绪是怎么产生的
[转] 觉察你内在的情绪，创造美好人生

喜欢该文的人也喜欢更多

热门阅读换一换

Machine Learning 之 概率论、信息论基础

一、概率论基础

ML中的概率论基础概念

概率分布

边缘概率

条件概率

贝叶斯定理(朴素贝叶斯算法那有介绍)：

期望、方差和协方差

ML常用概率分布

信息论基本想法：

基本性质

定义与部分概念

Machine Learning 之概率论、信息论基础