ChadExcel / 财购才 / 利用朴素贝叶斯算法如何进行数据分析?

0 0

   

利用朴素贝叶斯算法如何进行数据分析?

2017-10-22  ChadExcel

作者曾经写过系列文章《常用数据挖掘算法从入门到精通》,其中在第五章《常用数据挖掘算法从入门到精通 第五章 贝叶斯分类算法》就对朴素贝叶斯算法的理论及其应用有具体讲述,需要的读者可以到作者的主页查看更多更详细的内容

本文主要讲述贝叶斯分类算法并附有详细的案例帮助大家理解。

分类分析

分类分析是一种有监督的机器学习方法。主要解决的问题是利用训练样本集获得分类函数或分类模型。分类模型能很好的拟合训练样本集中属性集与类别之间的关系,也可以预测一个新样本属于哪一类。

第二章到第四章讲的聚类分析是不知道数据点的类别标签,需要自己自动分出类来,简单说就是一堆东西混到一起了,你要把它们区分开来谁和谁是一类的。

分类分析是本身已经知道每个数据点属于哪个类,它的任务是找到最佳的分类方法,也就是在这种分类方法下分类的分类效果是最佳的,比如,分类错误发生的概率最小,或在最小风险下进行分类决策等。

分类

贝叶斯概率—主观概率

贝叶斯方法是一种研究不确定性的推理方法。不确定性常用贝叶斯概率表示,它是一种主观概率。通常的经典概率代表事件的物理特性,是不随人意识变化的客观存在,而贝叶斯则是人的认识,是个人主观的估计,随个人主观认识的变化而变化。例如,一个投资者认为“购买某种股票能获得高收益”的概率是 0.6,这里的 0.6 是投资者根据自己多年股票生意经验和当时股票行情综合而成的个人信念。

贝叶斯概率是主观的,对其估计取决于先验知识的正确和后验知识的丰富和准确。因此贝叶斯概率常常可能随个人掌握信息的不同而发生变化。

概率基础知识

关于概率方面的更多详细知识,可以查看作者之前的一篇文章《想要学人工智能,你必须得先懂点统计学(3)概率与概率分布》。

联合概率:设 A,B 是两个随机事件,A 和 B 同时发生的概率称为联合概率,记为:P(AB)

条件概率:在 B 事件发生的条件下,A 事件发生的概率称为条件概率,记为:P(A|B),P(A|B) = P(AB) / P(B)

乘法定理:P(AB) = P(B)P(A|B) = P(A)P(B|A)

  • 先验概率 P(wi)

由样本的先验知识得到先验概率,可从训练集样本中估算出来。之所以称为“先验”是因为它不考虑任何其他方面的因素。

例如,两类10个训练样本,属于 w1 的有2个,属于 w2 的有8个,则先验概率P(w1) = 0.2,P(w2) = 0.8。

  • 类条件概率 p(x|wi)

wi 类发生的条件下,样本 x 出现的概率。

  • 后验概率P(wi|x)

对于某个样本 x , 属于 wi 类的概率, i=1,···,c。

    • 如果用先验概率 P(wi) 来确定待分样本 x 的类别, 依据显然是非常不充分的,须用类条件概率密度 p(x|wi) 来修正。

    • 根据样本 x 的先验概率类条件概率密度函数 p(x|wi)Bayes 公式重新修正模式样本所属类的概率,称为后验概率P(wi|x)

Bayes 决策理论

用Bayes决策理论分类时要求:

  1. 各类总体的概率分布是已知的

  2. 要决策的类别数c是一定的

  • Bayes公式,也称Bayes法则

贝叶斯公式

  • Bayes分类规则:用后验概率分类

贝叶斯分类规则

贝叶斯分类案例

购买汽车的顾客训练集

  • 计算先验概率和类条件概率

  • 计算后验概率

因为 P(是|X) > P(否|X),由此可见,对于样本X,朴素贝叶斯分类预测该顾客会购买汽车

如果想要了解更多的算法及其实战,可以到作者主页查看这一系列的文章,系列文章已经全部更新完毕

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。如发现有害或侵权内容,请点击这里 或 拨打24小时举报电话:4000070609 与我们联系。

    猜你喜欢

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多
    喜欢该文的人也喜欢 更多