您的位置:首页 > 其它

Random Forest 实用经验(转)

2016-07-03 16:32 471 查看
总结两条关于random forest的实用经验。给定数据和问题,对于算法选择有参考价值。

小样本劣势,大样本优势

小样本情况下(1k~100k): RF相对与经典算法(SVM or Boosting)没优势,一般来说效果更差

大样本情况下(1M+): 这时候其他算法基本上跑不动了。RF凭借着快速的 training 和 testing,成为唯一能够实际操作的算法。 这也从一个侧面证明了工业界的哲学:数据第一,算法第二

如何针对不同问题,设计使用RF的方法,从而能够产生海量数据,是一门艺术

2. RF 与 KNN有相似的效果

RF 和 KNN 都可以看成对空间劈分的算法。RF 对空间的劈分是预计算的(在training过程中确定);而 KNN则是根据 testing sample adaptively劈分空间的。可以将RF视为KNN的一种快速算法。

KNN做不好的问题,RF也做不好

转自于

https://www.douban.com/note/212245564/

关于Knn和Random Forests的感觉

http://kkx.github.io/
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: