'MLY -- 12.Takeways:Setting up development and test sets'
2017-02-27 12:42
423 查看
选择能反映“你未来期望得到并且希望算法在其上能表现得好的数据”的分布的开发集和测试集。这可能和你训练集的分布不同。
尽量使开发集和测试集的分布相同
为你的团队选择优化单数值评价度量。如果有多个目标,可以考虑将他们组合成单个公式(例如对多个错误度量(error metrics)取平均),或者定义满意度量和优化度量。
机器学习是个高迭代过程:在发现能使你满意的点子之前,你可能需要尝试很多点子。
拥有开发/测试集和单数值评价度量能帮助你评估算法,从而使迭代更快。
当开始一个全新的应用时,尽量尽快建立开发/测试集和评价度量,尽量少于一周。在成熟的应用上,可以花费时间长点儿。
以前启发式的训练/测试集按70%/30%分割的策略在数据量很大时就不适用了。开发和测试集可以少于30%。
你的开发集应该大到可以检测出算法准确率的有意义的改变,但没有必要太大。你的测试集应该大到对最终的算法的表现有个可信服的评估。
如果你的开发集和度量不再能指引正确的方向,你应快速改变它们:(i)如果过拟合了开发集,应获得更多的开发集数据。(ii)如果实际分布和开发/测试集的分布不同,获得新的开发/测试集。(iii)如果度量不再能测量对你来说重要的东西,改变度量。
尽量使开发集和测试集的分布相同
为你的团队选择优化单数值评价度量。如果有多个目标,可以考虑将他们组合成单个公式(例如对多个错误度量(error metrics)取平均),或者定义满意度量和优化度量。
机器学习是个高迭代过程:在发现能使你满意的点子之前,你可能需要尝试很多点子。
拥有开发/测试集和单数值评价度量能帮助你评估算法,从而使迭代更快。
当开始一个全新的应用时,尽量尽快建立开发/测试集和评价度量,尽量少于一周。在成熟的应用上,可以花费时间长点儿。
以前启发式的训练/测试集按70%/30%分割的策略在数据量很大时就不适用了。开发和测试集可以少于30%。
你的开发集应该大到可以检测出算法准确率的有意义的改变,但没有必要太大。你的测试集应该大到对最终的算法的表现有个可信服的评估。
如果你的开发集和度量不再能指引正确的方向,你应快速改变它们:(i)如果过拟合了开发集,应获得更多的开发集数据。(ii)如果实际分布和开发/测试集的分布不同,获得新的开发/测试集。(iii)如果度量不再能测量对你来说重要的东西,改变度量。
相关文章推荐
- [转]Setting up an ASP.NET website development environment using Visual Studio .NET, Subversion, and Windows XP
- 5. Your development and test sets 你的开发集和测试集(《MACHINE LEARNING YEARNING》翻译)
- MLY -- 5.your development and test sets
- Setting Up the Development Environment for SharePoint 2010 on Windows Vista, Windows 7, and Windows
- 17.1.1.7 Setting Up Replication with New Master and Slaves 设置复制使用新的master和slaves:
- The General Procedure Of Setting Up EDKII Development Environment:搭建EDKII开发环境的通用流程[2.1]
- build up our owm model and test it in TensorFlow
- Setting Up Transmission-Daemon To Use With Remote GUI In Ubuntu And Debian
- Setting up a DFC Development Environment in Eclipse
- Agile PLM Setting Up EC Attributes and Attribute Mappin
- 17.1.1.7 Setting Up Replication with New Master and Slaves 设置复制使用新的master和slaves:
- Setting up SSL for SCM-Manager with Microsoft CA and TortoiseHg
- Setting up Django with Nginx, Gunicorn, virtualenv, supervisor and PostgreSQL
- Setting Up Your Own ASP Development Templates
- Setting Up OpenERP (Odoo) 9 with Nginx on RHEL/CentOS and Debian/Ubuntu
- Test-Driven Development and Testing Early
- Setting up Django and your web server with uWSGI and nginx
- Storm Setting Up a Development Environment
- Setting up Django and your web server with uWSGI and nginx