您的位置:首页 > 其它

随机森林-Random_Forest

2018-02-17 21:08 295 查看

随机森林(Random_Forest)

综述

1).顾名思义,随机森林就是许多树组合一起、最终predict结果服从投票机制(Bagging)的分类器。基本组成单位是决策树(decision_tree)

2).常用于分类问题(尤其二分类)

构建过程(假设共有训练样本m个,每个样本包含特征n个)

1). 从总样本集中使用重采样方式选择m个样本

2). 从总特征n中选择n_use个特征+上一步选择出来的m个样本–>用于建立决策树

注:由于使用的是重采样方式,对于每一棵决策树的建立来说,大概有1/3的样本未参与到此棵树的建立过程,这些数据称之为袋外数据

3). 以上2步重复执行k次,产生k棵决策树,组成随机森林

4). 最中预测结果采用投票方式(Bagging)进行决定

确定最佳分裂特征和计算特征权重

1). 决策树的建立过程中,如何确定使用什么特征作为当前的分裂参数呢?

  教常用的有两种种指标:

  1.1). Gini系数(使用范围更广)

  1.2). 信息增益

2). 如何确定每个特征对最终结果的贡献程度(也就是特征权重)?

  目前有两种方式

  2.1). 基于袋外数据误差:

   2.1.1). 对于随机森林的每一棵决策树,使用其袋外数据计算袋外数据误差,记为OOBError_1

   2.1.2). 随机地对袋外数据的所有样本的特征X加入噪声干扰(就可以随机的改变样本在特征X处的值),再次计算它的袋外数据误差,记为OOBError_2

   2.1.3). 假设随机森林中有Ntree棵树,那么对于特征X的重要性=∑OOBError2−OOBError1Ntree∑OOBError2−OOBError1Ntree,若给某个特征随机加入噪声之后,袋外的准确率大幅度降低,则说明这个特征对于样本的分类结果影响很大,也就是说它的重要程度比较高

   2.1.4). 最后进行归一化,得到相应的特征权重

 2.2). 基于Gini系数:

   2.2.1). 决策分类过程中,选择将gini减小最大的特征,并记录通过该特征减小的gini系数

   2.2.2). 假设要计算特征X的权重,则累加所有树中特征X对应的gini系数

   2.2.3). 最后进行归一化,得到相应的特征权重

超参数说明

  1).n_estimators:默认值为10,此值过大,可能过拟合;此值过小,容易欠拟合

  2).max_depth:决策树的最大深度

  3).min_samples_split:节点进行划分需要的最少样本数

  4).max_features:进行划分时需要考虑的最大特征个数

  5).min_samples_leaf:决策树叶子节点的最少样本数

 在实验过程中,以上几个超参数对最终模型有重要作用,但是想找到最优的超参数并不是特别难得事情。

 我们可以使用网格搜索或者随机搜索确定最优超参数

  1).网格搜索(GridSearchCV):搜索结果一定是所给范围内的最优超参数,但耗时长

  2).随机搜索(RandomizedSearchCV):搜索结果不一定是所给范围内的最优超参数,但速度快,结果也会贴近最优超参数

#Summary:

1)看了很多帖子,大概都是说随机森林不会过拟合,but过拟合这个东西貌似是ML/DL的固有属性吧,应该会产生,而且对模型的影响较大

2)随机森林中的特征权重计算很有意思,值得琢磨一下

3)sklearn中集成了随机森林,使用起来十分方便,详见sklearn的randomforest

4)谨以此来纪念第一篇blog

*作者:gengmiao 时间:2018.02.17,原创文章,转载请保留原文地址、作者等信息*
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  ML random forest