不均衡数据的处理方法
2018-01-25 16:13
330 查看
原文链接
关于不均衡数据的处理方法,主要有以下几个方面:
1. 采样的方法
1.1 过采样,采集类标少的样本,达到平衡样本的目的。
方法一,简单的复制类标少的样本
方法二,生成人工样本(SMOTE方法),MATLAB代码 SMOTE
(Synthetic Minority Over-Sampling Technique) - File Exchange - MATLAB Central
1.2 下采样,将大样本随机分成N类,结合类标少的样本进行训练N个模型,最后结果是N个模型的加权平均来刻画。
2. 基于名义变量的方法,也就是代价敏感函数方法。
cost-sensitive learning, penalized-SVM
3. RUSBoostcan
be impl
4000
emented in Matlab using the 'fitensemble' technique.
Using classifiers which can handle
the imbalance problem such as the RUSBoost technique
Matlab代码可见
以上方法的所有细节可参看下面的博文
(1)Class
Imbalance Problem
(2)不平衡数据下的机器学习方法简介
(3)8大策略让你对抗机器学习数据集里的不均衡数据
(4)Quora上面的解答:https://www.quora.com/In-classification-how-do-you-handle-an-unbalanced-training-set
翻译见:http://blog.csdn.net/heyongluoyao8/article/details/49408131
(5)在分类中如何处理训练集中不平衡问题
(6)知乎上的讨论 https://www.zhihu.com/question/36514847
https://www.zhihu.com/question/30492527
关于不均衡数据的处理方法,主要有以下几个方面:
1. 采样的方法
1.1 过采样,采集类标少的样本,达到平衡样本的目的。
方法一,简单的复制类标少的样本
方法二,生成人工样本(SMOTE方法),MATLAB代码 SMOTE
(Synthetic Minority Over-Sampling Technique) - File Exchange - MATLAB Central
1.2 下采样,将大样本随机分成N类,结合类标少的样本进行训练N个模型,最后结果是N个模型的加权平均来刻画。
2. 基于名义变量的方法,也就是代价敏感函数方法。
cost-sensitive learning, penalized-SVM
3. RUSBoostcan
be impl
4000
emented in Matlab using the 'fitensemble' technique.
Using classifiers which can handle
the imbalance problem such as the RUSBoost technique
Matlab代码可见
RUSBoost
以上方法的所有细节可参看下面的博文(1)Class
Imbalance Problem
(2)不平衡数据下的机器学习方法简介
(3)8大策略让你对抗机器学习数据集里的不均衡数据
(4)Quora上面的解答:https://www.quora.com/In-classification-how-do-you-handle-an-unbalanced-training-set
翻译见:http://blog.csdn.net/heyongluoyao8/article/details/49408131
(5)在分类中如何处理训练集中不平衡问题
(6)知乎上的讨论 https://www.zhihu.com/question/36514847
https://www.zhihu.com/question/30492527
相关文章推荐
- 不均衡数据的处理方法
- 深度学习-- 处理不均衡数据的方法
- JSON数据中DateTime类型的处理方法
- oracle数据文件被误删除后的灾难处理方法
- 视频流快速处理技术之一——基于帧数据量波动特性的压缩域视频快速检索方法
- python处理二进制数据的方法
- repeater控件内超链接or普通数据,后台处理方法
- JSP_strut2架构下前台接收后台传递到前台之数据并处理以使用的一种方法
- oracle数据文件被误删除后的灾难处理方法
- istringstream的使用方法——ACM对输入数据的处理方法
- php处理百万级以上的数据提高查询速度的方法
- JS 处理JSON数据及javascript处理对象、JSON对象、hash对象、数组对象的方法
- XML数据格式常用处理方法
- Shellcode中处理数据中\x00的方法
- Struts1.x处理Date类型数据的方法
- form表单action提交表单,页面不跳转且表单数据含文件的处理方法
- MySQL对于有大量重复数据表的处理方法
- aspx界面中,怎么调用后台的方法,处理某个数据
- 处理千万级以上的数据提高查询速度的方法
- 处理百万级以上的数据提高查询速度的方法