您的位置：首页 > 其它

随机森林-Random_Forest

2018-02-17 21:08 295 查看

随机森林(Random_Forest)

综述

1).顾名思义，随机森林就是许多树组合一起、最终predict结果服从投票机制(Bagging)的分类器。基本组成单位是决策树(decision_tree)

2).常用于分类问题(尤其二分类)

构建过程(假设共有训练样本m个，每个样本包含特征n个)

1). 从总样本集中使用重采样方式选择m个样本

2). 从总特征n中选择n_use个特征+上一步选择出来的m个样本–>用于建立决策树

注：由于使用的是重采样方式，对于每一棵决策树的建立来说，大概有1/3的样本未参与到此棵树的建立过程，这些数据称之为袋外数据

3). 以上2步重复执行k次，产生k棵决策树，组成随机森林

4). 最中预测结果采用投票方式(Bagging)进行决定

确定最佳分裂特征和计算特征权重

1). 决策树的建立过程中，如何确定使用什么特征作为当前的分裂参数呢？

　　教常用的有两种种指标：

　　1.1). Gini系数(使用范围更广)

　　1.2). 信息增益

2). 如何确定每个特征对最终结果的贡献程度(也就是特征权重)？

　　目前有两种方式

　　2.1). 基于袋外数据误差:

　　　2.1.1). 对于随机森林的每一棵决策树，使用其袋外数据计算袋外数据误差，记为OOBError_1

　　　2.1.2). 随机地对袋外数据的所有样本的特征X加入噪声干扰(就可以随机的改变样本在特征X处的值),再次计算它的袋外数据误差，记为OOBError_2

　　　2.1.3). 假设随机森林中有Ntree棵树,那么对于特征X的重要性=∑OOBError2−OOBError1Ntree∑OOBError2−OOBError1Ntree，若给某个特征随机加入噪声之后,袋外的准确率大幅度降低，则说明这个特征对于样本的分类结果影响很大,也就是说它的重要程度比较高

　　　2.1.4). 最后进行归一化，得到相应的特征权重

　2.2). 基于Gini系数：

　　　2.2.1). 决策分类过程中，选择将gini减小最大的特征，并记录通过该特征减小的gini系数

　　　2.2.2). 假设要计算特征X的权重，则累加所有树中特征X对应的gini系数

　　　2.2.3). 最后进行归一化，得到相应的特征权重

超参数说明

　　1).n_estimators:默认值为10，此值过大，可能过拟合；此值过小，容易欠拟合

　　2).max_depth:决策树的最大深度

　　3).min_samples_split:节点进行划分需要的最少样本数

　　4).max_features:进行划分时需要考虑的最大特征个数

　　5).min_samples_leaf:决策树叶子节点的最少样本数

　在实验过程中，以上几个超参数对最终模型有重要作用,但是想找到最优的超参数并不是特别难得事情。

　我们可以使用网格搜索或者随机搜索确定最优超参数

　　1).网格搜索(GridSearchCV)：搜索结果一定是所给范围内的最优超参数，但耗时长

　　2).随机搜索(RandomizedSearchCV):搜索结果不一定是所给范围内的最优超参数，但速度快，结果也会贴近最优超参数

＃Summary：

1）看了很多帖子，大概都是说随机森林不会过拟合，but过拟合这个东西貌似是ML/DL的固有属性吧，应该会产生，而且对模型的影响较大

2）随机森林中的特征权重计算很有意思，值得琢磨一下

3）sklearn中集成了随机森林，使用起来十分方便，详见sklearn的randomforest

4）谨以此来纪念第一篇blog

*作者：gengmiao 时间：2018.02.17,原创文章，转载请保留原文地址、作者等信息*

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： ML random forest

相关文章推荐

新的分享

章节导航