R语言实现决策树ID3算法

萌小芊 2018-04-10

展开全文

最近看西瓜书机器学习的决策树一章，觉得还蛮有意思的。R语言里面rpart包的rpart和prune函数都可以画出决策树。但是为了更好地理解这个过程，我参考了网上的文章，尝试写了一个特别特别简陋的code。

ID3算法是基于信息熵。信息熵是度量样本集合纯度最常用的指标。假定当前样本集合S第k类样本所占比例为pk，则S的信息熵定义为：

假定不同分支结点所包含样本数不同，给分支结点赋予权重，即样本数越多的分支结点的影响越大，可计算出属性A对样本集D进行划分获得的“信息增益”：

机器学习还蛮有意思的。强推周志华大佬的机器学习。

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：萌小芊 > 《统计》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

萌小芊

关注对话

喜欢该文的人也喜欢更多

热门阅读换一换