决策树的一些东西,乱写的当个总结。
2017-03-19 12:48
197 查看
有两个非常开阔视野的文章:
https://www.analyticsvidhya.com/blog/2016/04/complete-tutorial-tree-based-modeling-scratch-in-python/ https://www.analyticsvidhya.com/blog/2013/10/trick-enhance-power-regression-model-2/
随机森林主要优点:该模型能够输出变量的重要性程度、在对缺失数据进行估计时,随机森林是一个十分有效的方法,随机森林算法中包含了对输入数据的重复自抽样过程,即所谓的bootstrap抽样。这样一来,数据集中大约三分之一将没有用于模型的训练而是用于测试,这样的数据被称为out of bag samples,通过这些样本估计的误差被称为out of bag error。研究表明,这种out of bag 方法的与测试集规模同训练集一致的估计方法有着相同的精确程度,因此在随机森林中我们无需再对测试集进行另外的设置。
必须注意的是:根据离散特征分支划分数据集时,子数据集中不再包含该特征(因为每个分支下的子数据集该特征的取值就会是一样的,信息增益或者Gini Gain将不再变化);而根据连续特征分支时,各分支下的子数据集必须依旧包含该特征(当然,左右分支各包含的分别是取值小于、大于等于分裂值的子数据集),因为该连续特征再接下来的树分支过程中可能依旧起着决定性作用。
在C4.5中,对连续属性的处理如下:
https://people.eecs.berkeley.edu/~russell/classes/cs194/f11/lectures/CS194%20Fall%202011%20Lecture%2008.pdf
剪枝方法:
http://blog.csdn.net/u011067360/article/details/24871801
https://www.analyticsvidhya.com/blog/2016/04/complete-tutorial-tree-based-modeling-scratch-in-python/ https://www.analyticsvidhya.com/blog/2013/10/trick-enhance-power-regression-model-2/
随机森林主要优点:该模型能够输出变量的重要性程度、在对缺失数据进行估计时,随机森林是一个十分有效的方法,随机森林算法中包含了对输入数据的重复自抽样过程,即所谓的bootstrap抽样。这样一来,数据集中大约三分之一将没有用于模型的训练而是用于测试,这样的数据被称为out of bag samples,通过这些样本估计的误差被称为out of bag error。研究表明,这种out of bag 方法的与测试集规模同训练集一致的估计方法有着相同的精确程度,因此在随机森林中我们无需再对测试集进行另外的设置。
必须注意的是:根据离散特征分支划分数据集时,子数据集中不再包含该特征(因为每个分支下的子数据集该特征的取值就会是一样的,信息增益或者Gini Gain将不再变化);而根据连续特征分支时,各分支下的子数据集必须依旧包含该特征(当然,左右分支各包含的分别是取值小于、大于等于分裂值的子数据集),因为该连续特征再接下来的树分支过程中可能依旧起着决定性作用。
在C4.5中,对连续属性的处理如下:
https://people.eecs.berkeley.edu/~russell/classes/cs194/f11/lectures/CS194%20Fall%202011%20Lecture%2008.pdf
剪枝方法:
http://blog.csdn.net/u011067360/article/details/24871801
相关文章推荐
- 一位大师总结的东西---J2EE学习中一些值得研究的开源项目
- jquery中一些容易让人困惑的东西总结[转载]
- 总结以前的一些东西
- 自己总结的一些数据库操作需要注意的东西
- 转吧总结,一些零零碎碎的东西
- 【持续更新】总结:C++开发时积累的一些零碎的东西
- java中一些多方法的东西总结
- 有关结构体的一些东西(自己总结的书上的)1
- 一些常识性的东西,同学心理都知道但没人拆穿,网上有一哥们总结的不错,先保存着
- 总结的一些css3的一些东西,放个地方吧
- 总结一些你肯定会用到的东西(长期更新)
- 面试题总结——位的一些东西
- ASP.NET中自己总结的一些东西
- jQuery中一些容易让人困惑的东西总结
- iOS 10 适配总结,苹果改的一些东西
- 【Stage3D学习笔记续】山寨Starling(十二):总结和一些没提到的东西
- 一些简化程序的东西,慢慢总结
- ASP.NET中自己总结的一些东西
- 关于C++使用中总结的一些东西(第三章)
- 看书看视频多了,总想总结出一些方法论的东西