CART与C4.5的区别
2017-08-24 14:30
567 查看
虽然两者都是决策树,但CART既可以做分类,又可以做回归,而C4.5只是用于分类。
C4.5说到底是构造决策树来发现数据中蕴涵的分类规则,是一种通过划分特征空间逼近离散函数值的方法。C4.5是基于ID3的改进算法,使用信息增益率作为划分依据。
分类规则是互斥并且完备的,所谓互斥即每一条样本记录不会同时匹配上两条分类规则,所谓完备即每条样本记录都在决策树中都能匹配上一条规则。
CART本质是对特征空间进行二元划分(即CART生成的决策树是一棵二叉树),并能够对标量属性(nominal attribute)与连续属性(continuous attribute)进行分裂。在对标量进行划分时,分为等于该属性和不等于该属性;对连续进行划分时,分为大于和小于。并且在分类的时候是采用GINI作为衡量标准,而不是信息增益了;而在回归时,是使用均方误差作为评价。
值得注意的是,CART对于特征的利用是可以重复的,而作为分类的C4.5则是不能重复利用特征。
GBDT实质上就是一堆回归树的集合,只不过是按照梯度(残差)方向串行训练,而random forest则是并行训练一堆决策树,最后投票决定。
C4.5说到底是构造决策树来发现数据中蕴涵的分类规则,是一种通过划分特征空间逼近离散函数值的方法。C4.5是基于ID3的改进算法,使用信息增益率作为划分依据。
分类规则是互斥并且完备的,所谓互斥即每一条样本记录不会同时匹配上两条分类规则,所谓完备即每条样本记录都在决策树中都能匹配上一条规则。
CART本质是对特征空间进行二元划分(即CART生成的决策树是一棵二叉树),并能够对标量属性(nominal attribute)与连续属性(continuous attribute)进行分裂。在对标量进行划分时,分为等于该属性和不等于该属性;对连续进行划分时,分为大于和小于。并且在分类的时候是采用GINI作为衡量标准,而不是信息增益了;而在回归时,是使用均方误差作为评价。
值得注意的是,CART对于特征的利用是可以重复的,而作为分类的C4.5则是不能重复利用特征。
GBDT实质上就是一堆回归树的集合,只不过是按照梯度(残差)方向串行训练,而random forest则是并行训练一堆决策树,最后投票决定。
相关文章推荐
- 决策树CART与ID3,C4.5联系与区别
- [每日问答]ID3,C4.5,CART的区别是什么?
- ID3、C4.5、CART三种决策树的区别
- ID3、C4.5、CART、随机森林、bagging、boosting、GBDT、xgboost算法总结
- 三个有名的决策树算法:CHAID、CART和C4.5
- 决策树模型比较:C4.5,CART,CHAID,QUEST
- ID3,C4.5,CART 决策树算法学习
- 《机器学习实战》基于信息论的三种决策树算法(ID3,C4.5,CART)
- 决策树模型 ID3/C4.5/CART算法比较
- 决策树归纳一般框架(ID3,C4.5,CART)
- ID3、C4.5、CART、RandomForest的原理
- ID3和C4.5、CART
- cart回归决策树和id3的的区别
- 决策树(ID3、C4.5、CART)
- 决策树(三)--完整总结(ID3,C4.5,CART,剪枝,替代)
- 决策树ID3、C4.5、CART算法:信息熵,区别,剪枝理论总结
- ID3&C4.5的区别
- 机器学习算法与Python实践(11) - 决策树 ID3、C4.5、CART
- 决策树(ID3、C4.5、CART、随机森林)
- 基于决策树系列算法(ID3, C4.5, CART, Random Forest, GBDT)的分类和回归探讨