最近看西瓜书机器学习的决策树一章,觉得还蛮有意思的。R语言里面rpart包的rpart和prune函数都可以画出决策树。但是为了更好地理解这个过程,我参考了网上的文章,尝试写了一个特别特别简陋的code。 ID3算法是基于信息熵。信息熵是度量样本集合纯度最常用的指标。假定当前样本集合S第k类样本所占比例为pk,则S的信息熵定义为: 假定不同分支结点所包含样本数不同,给分支结点赋予权重,即样本数越多的分支结点的影响越大,可计算出属性A对样本集D进行划分获得的“信息增益”: 机器学习还蛮有意思的。强推周志华大佬的机器学习。 |
|