分享

数据挖掘十大经典算法(9):朴素贝叶斯

 dinghj 2013-10-12
本文所采用图片均来自清华大学计算机系王建勇老师的课程《数据挖掘:原理与算法》

 

    贝叶斯分类的基础是贝叶斯公式,如下图。P(H|X)是根据X参数值判断其属于类别H的概率,称为后验概率。P(H)是直接判断某个样本属于H的概率,称为先验概率。P(X|H)是在类别H中观测到X的概率,P(X)是在数据库中观测到X的概率。

数据挖掘十大经典算法(9):朴素贝叶斯

朴素贝叶斯分类器

    由于P(X)对于任何一个类别H而言,其值都是固定的,因此在计算P(H|X)时不需要考虑。朴素贝叶斯分类的最核心的假设是X向量中的每一个参数xi与xj之间都是相互独立的,因此有下面计算P(X|H)的公式:

数据挖掘十大经典算法(9):朴素贝叶斯

    在这个假设下,朴素贝叶斯分类器变成了简单的概率计算。基于训练集的数据,事先计算出每个类别的概率P(Ci),再计算出每个类别下每个参数的概率P(xi|Ci)。当面临一个新样本时,利用上面简化的贝叶斯公式计算出P(Ci|X),值最大的Ci记为分类结果。为了防止出现零概率现象,可以在保存的每个概率的分子分母都+1. 朴素贝叶斯分类器的算例如下图所示。

数据挖掘十大经典算法(9):朴素贝叶斯

数据挖掘十大经典算法(9):朴素贝叶斯

贝叶斯网络
    贝叶斯网络能够克服朴素贝叶斯分类器参数相互独立的假设,如果参数A依赖于参数B,则建立B->A的一条有向边。贝叶斯网络与朴素贝叶斯分类器的异同如下图所示。可以看到在计算类别概率P(c)时,二者一致;只是在计算P(click|c)时,朴素贝叶斯分类器只与类别c有关,而贝叶斯网络还依赖于html的值。

数据挖掘十大经典算法(9):朴素贝叶斯
    由于参数之间存在依赖关系,因此在计算训练集的概率之前,需要先建立贝叶斯网络。一种生成贝叶斯网络的方法如下图所示,其中MI(X,Y)表示的是参数X和参数Y之间的相关关系,当独立时,MI为0;MI大于0,表示正相关;MI小于0,表示负相关。

数据挖掘十大经典算法(9):朴素贝叶斯

  

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多