您的位置：首页 > 理论基础 > 计算机网络

Coursea吴恩达《结构化机器学习》课程笔记(2)机器学习策略下

2017-11-11 22:07 411 查看

1 误差分析

拿猫分类器的例子来说明：

比如通过查看分类错误的的样本发现分类器将上面的狗狗图片误分类为猫，这是一种错误情况。

误差分析的一般做法是：

随机开发集中误分类的样本中随机选取少量样本（大概100个左右),逐个的进行查看。

统计可能发生的错误情况，绘制成表格。

在这个例子中，可能发生的错误情况包括：

把狗狗识别成了猫。

把猫科动物识别成了猫。

可能有些照片比较模糊，导致识别错误。

这时候可以把错误发生率最高的情况的优先级设为最高，这样解决问题就有了思路。

清洗开发集中标签错误的数据

同时清洗开发集和测试集的样本，从而使开发集和测试集的样本保持来自同一个分布

不需要清洗训练集，因为训练集样本太多。训练数据可以和开发测试集中的数据来自稍微不同的分布。后面会谈到处理方法

快速搭建第一个系统，并快速迭代

建立开发集，测试集和评估指标

快速的建立初始的系统

利用偏差方差分析和错误分析去指导下一步怎么做

训练集和测试集来自不同的分布

两个例子

cat app example

有些猫的图片来自于网上，这些图片往往比较清晰，另一些照片来自用户的手机，这些照片会比较模糊，拍摄水平比较低。这个app的目的是从用户上传的照片中识别出猫的照片

这里有两种划分的方法

第一种是先把所有数据shuffle，然后按照option1那样进行划分，这样开发集合测试集中用户上传的照片比例太少，可能会对来自网上的高质量的猫图过拟合，不符合app的目的

第二种是开发集和测试集都是由来自用户上传的猫图组成，训练集两者都包含，这样虽然训练集和开发测试集分布不一样(后面会提到解决办法)，但我们的靶心是对的