【原】ML之DT之CART：分类与回归树CART算法的简介、应用、经典案例之详细攻略

处女座的程序猿 2021-09-28

展开全文

ML之DT之CART：分类与回归树CART算法的简介、应用、经典案例之详细攻略

分类与回归树CART算法简介

分类与回归树（Classification and Regression Trees, CART）是由Leo Breiman, Jerome Friedman, Richard Olshen与Charles Stone于1984年提出，既可用于分类也可用于回归。
CART是决策树的一个实现方式，由ID3，C4.5演化而来，是许多基于树的bagging、boosting模型的基础。CART可用于分类与回归。

1、CART原理—比较ID3、C4.5

CART是在给定输入随机变量x条件下输出随机变量y的条件概率分布。与ID3和C4.5的决策树所不同的是，ID3和C4.5生成的决策树可以是多叉的，每个节点下的叉数由该节点特征的取值种类而定，比如特征年龄分为（青年，中年，老年），那么该节点下可分为3叉。
而CART为假设决策树为二叉树，内部结点特征取值为“是”和“否”。左分支取值为“是”，右分支取值为“否”。这样的决策树等价于递归地二分每一个特征，将输入空间划分为有限个单元，并在这些单元上预测概率分布，也就是在输入给定的条件下输出条件概率分布。

2、CART算法描述

其中T代表当前样本集，当前候选属性集用T_attributelist表示。

（1）创建根节点N
（2）为N分配类别
（3）if T都属于同一类别or T中只剩下一个样本则返回N为叶节点，否则为其分配属性
（4）for each T_attributelist中属性执行该属性上的一个划分，计算此划分的GINI系数
（5）N的测试属性test_attribute=T_attributelist中最小GINI系数的属性
（6）划分T得到T1 T2子集
（7）对于T1重复（1）-（6）
（8）对于T2重复（1）-（6）