您的位置：首页 > 产品设计 > 产品经理

'MLY -- 12.Takeways:Setting up development and test sets'

2017-02-27 12:42 423 查看

选择能反映“你未来期望得到并且希望算法在其上能表现得好的数据”的分布的开发集和测试集。这可能和你训练集的分布不同。

尽量使开发集和测试集的分布相同

为你的团队选择优化单数值评价度量。如果有多个目标，可以考虑将他们组合成单个公式（例如对多个错误度量（error metrics）取平均），或者定义满意度量和优化度量。

机器学习是个高迭代过程：在发现能使你满意的点子之前，你可能需要尝试很多点子。

拥有开发/测试集和单数值评价度量能帮助你评估算法，从而使迭代更快。

当开始一个全新的应用时，尽量尽快建立开发/测试集和评价度量，尽量少于一周。在成熟的应用上，可以花费时间长点儿。

以前启发式的训练/测试集按70%/30%分割的策略在数据量很大时就不适用了。开发和测试集可以少于30%。

你的开发集应该大到可以检测出算法准确率的有意义的改变，但没有必要太大。你的测试集应该大到对最终的算法的表现有个可信服的评估。

如果你的开发集和度量不再能指引正确的方向，你应快速改变它们：（i）如果过拟合了开发集，应获得更多的开发集数据。（ii）如果实际分布和开发/测试集的分布不同，获得新的开发/测试集。(iii)如果度量不再能测量对你来说重要的东西，改变度量。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航