[问题] 分类模型泛化能力不好
2016-03-22 11:53
916 查看
这个问题在各个领域的分类问题上都会出现,根本上还是数据集的问题。就像是做视频剪辑的人说的,真正做视频的高手会在录制视频时下更多的功夫,而不是在后期处理上,视频质量的好坏很大程度决定于录制视频的手法。类似的,数据集分布过于杂合交错,训练出的模型连在本地测试集上效果都不好;而数据集分布过于单一明了,训练出的模型在实际应用时会有很大的不适应。
目前做的性别分类和年龄估计应用,就出现了泛化能力不好的问题。它们选取的数据集来源于以下几处:男女成人声音来源于广播节目里的对话,特点是背景声明显;小孩声来源于幼儿园实际录制,有噪声小的,也有噪声很大的,没有噪声适中的。以这样的数据集训练出的模型,对专业播音员无噪音环境下录制的声音进行测试,识别效果很差,表明该分类模型的泛化能力不好。但是,一旦加入一定量的数据到训练集,对该无噪音播音声的识别效果就会明显提高,而且对其它测试的识别效果不会降低太多。
所以结论是,遇到测试效果不好的数据,选取一部分该数据加入训练集,会对模型的泛化能力有帮助;然而这一做法的最大问题就是,并不是个elegant的做法,而且不是长久之计。
目前做的性别分类和年龄估计应用,就出现了泛化能力不好的问题。它们选取的数据集来源于以下几处:男女成人声音来源于广播节目里的对话,特点是背景声明显;小孩声来源于幼儿园实际录制,有噪声小的,也有噪声很大的,没有噪声适中的。以这样的数据集训练出的模型,对专业播音员无噪音环境下录制的声音进行测试,识别效果很差,表明该分类模型的泛化能力不好。但是,一旦加入一定量的数据到训练集,对该无噪音播音声的识别效果就会明显提高,而且对其它测试的识别效果不会降低太多。
所以结论是,遇到测试效果不好的数据,选取一部分该数据加入训练集,会对模型的泛化能力有帮助;然而这一做法的最大问题就是,并不是个elegant的做法,而且不是长久之计。
相关文章推荐
- jQuery插件开发
- zenoss安装配置
- 需求 - 20 - 提示框
- 蓝桥杯 入门训练 A+B问题
- Windows10如何利用fiddler抓去Android手机应用的包
- MySQL分库分表环境下全局ID生成方案
- 理解HTTP/304响应(HTTP原理中的缓存机制)
- LeetCode——Binary Tree Level Order Traversal II
- delphi 字符串与内存流和文件的快速转换函数
- c#大圣之路笔记——c# 页面加载数据过长等待显示框
- 脚本化css 脚本化内联样式 脚本化css类
- node.js之回调函数示例
- php中time() 和 $_SERVER["REQUEST_TIME"]
- 小技巧-CLASS文件源码查看方法整理
- 【设计模式】之装饰器模式(二)-PHP
- iOS-UIPickerView拾取器
- 多线程之延迟操作
- json 带斜杠时如何解析
- setprecision
- android调用其他apk的activity