随机森林-Random_Forest
2018-02-17 21:08
295 查看
随机森林(Random_Forest)
综述1).顾名思义,随机森林就是许多树组合一起、最终predict结果服从投票机制(Bagging)的分类器。基本组成单位是决策树(decision_tree)
2).常用于分类问题(尤其二分类)
构建过程(假设共有训练样本m个,每个样本包含特征n个)
1). 从总样本集中使用重采样方式选择m个样本
2). 从总特征n中选择n_use个特征+上一步选择出来的m个样本–>用于建立决策树
注:由于使用的是重采样方式,对于每一棵决策树的建立来说,大概有1/3的样本未参与到此棵树的建立过程,这些数据称之为袋外数据
3). 以上2步重复执行k次,产生k棵决策树,组成随机森林
4). 最中预测结果采用投票方式(Bagging)进行决定
确定最佳分裂特征和计算特征权重
1). 决策树的建立过程中,如何确定使用什么特征作为当前的分裂参数呢?
教常用的有两种种指标:
1.1). Gini系数(使用范围更广)
1.2). 信息增益
2). 如何确定每个特征对最终结果的贡献程度(也就是特征权重)?
目前有两种方式
2.1). 基于袋外数据误差:
2.1.1). 对于随机森林的每一棵决策树,使用其袋外数据计算袋外数据误差,记为OOBError_1
2.1.2). 随机地对袋外数据的所有样本的特征X加入噪声干扰(就可以随机的改变样本在特征X处的值),再次计算它的袋外数据误差,记为OOBError_2
2.1.3). 假设随机森林中有Ntree棵树,那么对于特征X的重要性=∑OOBError2−OOBError1Ntree∑OOBError2−OOBError1Ntree,若给某个特征随机加入噪声之后,袋外的准确率大幅度降低,则说明这个特征对于样本的分类结果影响很大,也就是说它的重要程度比较高
2.1.4). 最后进行归一化,得到相应的特征权重
2.2). 基于Gini系数:
2.2.1). 决策分类过程中,选择将gini减小最大的特征,并记录通过该特征减小的gini系数
2.2.2). 假设要计算特征X的权重,则累加所有树中特征X对应的gini系数
2.2.3). 最后进行归一化,得到相应的特征权重
超参数说明
1).n_estimators:默认值为10,此值过大,可能过拟合;此值过小,容易欠拟合
2).max_depth:决策树的最大深度
3).min_samples_split:节点进行划分需要的最少样本数
4).max_features:进行划分时需要考虑的最大特征个数
5).min_samples_leaf:决策树叶子节点的最少样本数
在实验过程中,以上几个超参数对最终模型有重要作用,但是想找到最优的超参数并不是特别难得事情。
我们可以使用网格搜索或者随机搜索确定最优超参数
1).网格搜索(GridSearchCV):搜索结果一定是所给范围内的最优超参数,但耗时长
2).随机搜索(RandomizedSearchCV):搜索结果不一定是所给范围内的最优超参数,但速度快,结果也会贴近最优超参数
#Summary:
1)看了很多帖子,大概都是说随机森林不会过拟合,but过拟合这个东西貌似是ML/DL的固有属性吧,应该会产生,而且对模型的影响较大
2)随机森林中的特征权重计算很有意思,值得琢磨一下
3)sklearn中集成了随机森林,使用起来十分方便,详见sklearn的randomforest
4)谨以此来纪念第一篇blog
*作者:gengmiao 时间:2018.02.17,原创文章,转载请保留原文地址、作者等信息*
相关文章推荐
- RandomForestClassifier(随机森林检测每个特征的重要性及每个样例属于哪个类的概率)
- 随机森林-sklearn.ensemble.RandomForestRegressor
- LSH︱python实现局部敏感随机投影森林——LSHForest/sklearn(一)
- LSH︱python实现局部敏感随机投影森林——LSHForest/sklearn(一)
- 谈谈随机森林的视觉应用-Random Forests(1)
- 随机森林
- 随机森林与 GBDT
- OpenCV码源笔记——(letter_recog.cpp)随机Forest部分
- 随机森林的训练过程
- LeetCode138 Copy List with Random Pointer(深度复制带有随机指针的链表) Java题解
- 随机森林到底是啥?
- C# .NET Random 生成随机数字和字母
- python_random随机
- java: Random 随机数组
- 24-IO流-61-IO流(RandomAccessFile-随机写入&细节)
- 机器学习-Random Forest算法简介
- java:RandomAccessFile(随机读写文件)
- hdu 3367 Pseudoforest 伪森林 题目很难懂,模仿kruskal,并查集检查两个节点是否是一个环
- Decision Tree random forest important variables
- 霍夫森林(Hough Forest)目标检测算法