分享

R语言实现决策树ID3算法

 萌小芊 2018-04-10

   最近看西瓜书机器学习的决策树一章,觉得还蛮有意思的。R语言里面rpart包的rpart和prune函数都可以画出决策树。但是为了更好地理解这个过程,我参考了网上的文章,尝试写了一个特别特别简陋的code。

    ID3算法是基于信息熵。信息熵是度量样本集合纯度最常用的指标。假定当前样本集合S第k类样本所占比例为pk,则S的信息熵定义为:

   假定不同分支结点所包含样本数不同,给分支结点赋予权重,即样本数越多的分支结点的影响越大,可计算出属性A对样本集D进行划分获得的“信息增益”:

机器学习还蛮有意思的。强推周志华大佬的机器学习。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多