CART分类和回归树
2016-05-19 14:58
465 查看
(^U^)ノ~ CART算法根据类标号属性的类型,当类标号属性是连续型时,生成的模型是回归树;离散型则是分类树。
(^U^)ノ~ 不同于ID3算法可以产生多个分支,CART每次分裂只能产生两个分支,所以CART产生的决策树是一棵二叉树。
(^U^)ノ~ 杂度(不纯度):gini(t)=1 -( 各类数量在数据集中的概率)的平方和。
(^U^)ノ~ 标准问题集:所有候选分支方案的集合。
连续属性的标准问题集:形如 “ Is A <= d? ”。
其中d的取值为:将A中不同的取值按大小排列,然后依次计算相邻两个数值的平均值,组成新的序列A‘,A’中的值就是d。
离散属性的标准问题集:形如 “ Is A 属于 s? ”。满足任意s或者s的并集不能完备或为空。
生成最大树:在标准问题集中一个一个计算,计算谁能让一个节点的杂度削减最多,则该节点就按照此属性分裂。继续对节点按此划分,直到满足某个停止准则才停止分裂,最后生成一个完全生长的二叉树,称为最大树。
树的修剪:修剪之后的代价复杂度更小的话就修剪。逐渐增大a,逐渐删除分支,知道被修剪只有一个根节点,从而得到一系列树。
子树评估:1SE规则:误分类损失的一定范围内选出节点数最小的。
(^U^)ノ~ 不同于ID3算法可以产生多个分支,CART每次分裂只能产生两个分支,所以CART产生的决策树是一棵二叉树。
(^U^)ノ~ 杂度(不纯度):gini(t)=1 -( 各类数量在数据集中的概率)的平方和。
(^U^)ノ~ 标准问题集:所有候选分支方案的集合。
连续属性的标准问题集:形如 “ Is A <= d? ”。
其中d的取值为:将A中不同的取值按大小排列,然后依次计算相邻两个数值的平均值,组成新的序列A‘,A’中的值就是d。
离散属性的标准问题集:形如 “ Is A 属于 s? ”。满足任意s或者s的并集不能完备或为空。
生成最大树:在标准问题集中一个一个计算,计算谁能让一个节点的杂度削减最多,则该节点就按照此属性分裂。继续对节点按此划分,直到满足某个停止准则才停止分裂,最后生成一个完全生长的二叉树,称为最大树。
树的修剪:修剪之后的代价复杂度更小的话就修剪。逐渐增大a,逐渐删除分支,知道被修剪只有一个根节点,从而得到一系列树。
子树评估:1SE规则:误分类损失的一定范围内选出节点数最小的。
相关文章推荐
- CLR Via C# 第四章 类型基础——读书笔记
- Yii2中Component和Object的使用方法
- subList的缺陷
- Android 仿微信支付密码输入框
- J2SE(十九)垃圾回收机制
- Loadrunner教程
- 例题 8-3 UVA - 1152 4 Values whose Sum is 0(和为0的4个值)(二分枚举)
- startActivity()的流程
- Xcode7之无付费账号真机调试
- 任务调度开源框架Quartz动态添加、修改和删除定时任务
- 第一个P2P_wifi直连安卓软件总结:
- python之渗透小脚本
- 使用maven创建基于spring框架的scala web工程
- 优化UITableViewCell高度计算的那些事
- matplotlib 资料收集
- ArrayList
- ksoftirqd内核线程是如何补充实现软中断功能的
- jenkins配置权限不对导致无法登陆的重置方法
- 浅析jquery数组删除指定元素的方法:grep()
- FlycooLabelView显示角标效果