分享

ML之DT之CART:分类与回归树CART算法的简介、应用、经典案例之详细攻略

 处女座的程序猿 2021-09-28

ML之DT之CART:分类与回归树CART算法的简介、应用、经典案例之详细攻略


分类与回归树CART算法简介

       分类与回归树(Classification and Regression Trees, CART)是由Leo Breiman, Jerome Friedman, Richard Olshen与Charles Stone于1984年提出,既可用于分类也可用于回归。
       CART是决策树的一个实现方式,由ID3,C4.5演化而来,是许多基于树的bagging、boosting模型的基础。CART可用于分类与回归。

1、CART原理—比较ID3、C4.5

       CART是在给定输入随机变量x条件下输出随机变量y的条件概率分布。与ID3和C4.5的决策树所不同的是,ID3和C4.5生成的决策树可以是多叉的,每个节点下的叉数由该节点特征的取值种类而定,比如特征年龄分为(青年,中年,老年),那么该节点下可分为3叉。
       而CART为假设决策树为二叉树,内部结点特征取值为“是”和“否”。左分支取值为“是”,右分支取值为“否”。这样的决策树等价于递归地二分每一个特征,将输入空间划分为有限个单元,并在这些单元上预测概率分布,也就是在输入给定的条件下输出条件概率分布。

2、CART算法描述

其中T代表当前样本集,当前候选属性集用T_attributelist表示。

(1)创建根节点N
(2)为N分配类别
(3)if T都属于同一类别or T中只剩下 一个样本则返回N为叶节点,否则为其分配属性
(4)for each T_attributelist中属性执行该属性上的一个划分,计算此划分的GINI系数
(5)N的测试属性test_attribute=T_attributelist中最小GINI系数的属性
(6)划分T得到T1 T2子集
(7)对于T1重复(1)-(6)
(8)对于T2重复(1)-(6)

CART算法的案经典案例

ML之RF:利用Js语言设计随机森林算法【DT之CART算法(gain index)】&并应用随机森林算法

相关文章
人工智能之CART算法

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章