您的位置：首页 > 其它

深度学习总结(八)——训练、开发和测试集及偏差和方差

2017-12-07 10:33 330 查看

1. 数据集的划分

小数据时代： 70%(训练集)/30%(测试集)或者60%(训练集)/20%(验证集)/20%(测试集)

大数据时代： 验证集和测试集的比例要逐渐减小，比如：

980000/10000/10000

2. 验证集和测试集的作用

深度学习需要大量的数据，我们可能会采用网上爬取的方式获得训练集，容易出现训练集和验证集、测试集分布不一致的情况，由于验证集的目的就是为了验证不同的算法，选取效果好的。所以确保验证集和测试集的数据来自同一分布可以加快训练速度，模型在测试集上也会获得较好的效果。

测试集的目的是对最终选定的神经网络系统做出无偏评估。（测试集可以不要）

没有测试集时，验证集也会被称为测试集，但是人们是把这里的测试集当成简单交叉验证集使用。

搭建训练验证集和测试集能够加速神经网络的集成，也可以更有效地衡量算法的偏差和方差。从而帮助我们更高效地选择合适的方法来优化算法。


训练集误差	1%	15%	15%	0.5%
验证集误差	11%	16%	30%	1%
	High variance	high bias	high bias & high variance	low bias & low variance

上述表格基于假设：最优误差（基础误差）≈0%，训练集和验证集数据来自相同分布。

3. 偏差和方差

通过训练集可以判断数据拟合情况，判断是否有偏差问题

从训练集到验证集，可以判断方差是否过高。

训练网络的时候:

先让网络拟合数据，降低偏差，再看方差

深度学习对监督学习大有裨益的一个重要原因是，我们不用太多关注如何平衡偏差和方差。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航