数据挖掘十大经典算法(9)：朴素贝叶斯

dinghj 2013-10-12

展开全文

本文所采用图片均来自清华大学计算机系王建勇老师的课程《数据挖掘：原理与算法》

http://dbgroup.cs./wangjy/DM/DataMining.html

贝叶斯分类的基础是贝叶斯公式，如下图。P（H|X）是根据X参数值判断其属于类别H的概率，称为后验概率。P（H)是直接判断某个样本属于H的概率，称为先验概率。P（X|H)是在类别H中观测到X的概率，P(X)是在数据库中观测到X的概率。

朴素贝叶斯分类器

由于P（X)对于任何一个类别H而言，其值都是固定的，因此在计算P（H|X)时不需要考虑。朴素贝叶斯分类的最核心的假设是X向量中的每一个参数xi与xj之间都是相互独立的，因此有下面计算P(X|H)的公式：

在这个假设下，朴素贝叶斯分类器变成了简单的概率计算。基于训练集的数据，事先计算出每个类别的概率P（Ci），再计算出每个类别下每个参数的概率P（xi|Ci）。当面临一个新样本时，利用上面简化的贝叶斯公式计算出P(Ci|X),值最大的Ci记为分类结果。为了防止出现零概率现象，可以在保存的每个概率的分子分母都+1. 朴素贝叶斯分类器的算例如下图所示。

贝叶斯网络
贝叶斯网络能够克服朴素贝叶斯分类器参数相互独立的假设，如果参数A依赖于参数B，则建立B->A的一条有向边。贝叶斯网络与朴素贝叶斯分类器的异同如下图所示。可以看到在计算类别概率P（c）时，二者一致；只是在计算P(click|c）时，朴素贝叶斯分类器只与类别c有关，而贝叶斯网络还依赖于html的值。

由于参数之间存在依赖关系，因此在计算训练集的概率之前，需要先建立贝叶斯网络。一种生成贝叶斯网络的方法如下图所示，其中MI（X,Y）表示的是参数X和参数Y之间的相关关系，当独立时，MI为0；MI大于0，表示正相关；MI小于0，表示负相关。