您的位置:首页 > 其它

分类回归树(CART)

2017-04-15 19:20 239 查看
1 算法思想

CART既可以用于分类,也可以用于回归,也就是说,它的返回值,既可以是连续的,也可以是离散的。

CART伪代码为:



CART(Classification And Regression Tree)算法采用一种二分递归分割的技术,将当前的样本集分为两个子样本集,使得生成的的每个非叶子节点都有两个分支。

2 将CART用于回归

主要分为两个阶段:建树和剪枝

(1)建树

按照CART伪代码的流程就能建树,主要问题是,怎样实现数据集的最佳二分切分方式?切分的流程伪代码为:



(2)剪枝

如果一颗数节点过多,就会产生“过拟合”,此时,就要进行剪枝处理。所以,剪枝就是一种降低决策树复杂度来避免过拟合的过程。

剪枝分为预剪枝和后剪枝两种,预剪枝是指在建树过程中进行的修建,后剪枝是指在建树完成后,从上到下找到叶子节点,用测试集来判断将这些叶子节点合并以后是否能降低整体误差,如果能的话,就合并叶子节点,以达到剪枝的目的。后剪枝的伪代码为:



3 模型树

如果叶子节点是分段常数,就称为回归树;如果叶节点是线性回归方程,则称为模型树。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  机器学习