您的位置:首页 > 其它

七月机器学习之特征工程6

2017-03-28 18:27 357 查看










随机取样:可能无法表征所有的情况

分层采样:对不同的年龄段(举例)进行采样

大多数算法对正负样本都是很敏感的

下采样:比如正样本很多,我们在正样本中抽取数据,使得正负样本一样多

如果正样本比负样本大很多,建议你取采集更多的数据











selectKBest选择与y相关度最高的k个数据









l1正则化是截断,也就是说不相关的就截断,权重为0,selectfrommodel可以选出大于权重0的特征

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: