您的位置:首页 > 其它

Coursera ML笔记 -----week6 -2 Machine Learning System Design

2017-04-07 21:36 405 查看
欢迎点击作者原文地址

这一部分给了一个误差分析(问题判断)的方法:Error Analysis (和前面的learining curve联系)

还给了一个比较算法优劣的方法:Evaluation Metric(和前面的classification-/accuracyerror比较)

Error Analysis

我们在构建一个机器学习的算法系统时,可以采用这样子的步骤:

1. 快速实现一个简单的算法, 并在验证集上测试你的算法

2. 用learning curve分析,看加数据数或者加特征能够能改善

3. 或者用error analysis的方式,手动地检查测试集中出错的那些数据样本,看其中是否有某种规律或者特征



我们不用担心算法的雏形太简单,太粗暴,因为算法雏形的目标只是为了让你知道接下来应该做什么:

1. error analysis

2. evaluation metric (single real number evaluation)

error analysis能够帮助你知道往哪儿走,evaluation metric 能够帮你更直观地比较不同想法之间的表现优劣

Evaluation Metric

我们在做分类器的时候,一个衡量的标准就是分类的准确率/错误率(accuracy/error)。但是当我们遇到skewed classes这种倾斜(偏倚)程度很高的情况的时候,accuracy还是能够衡量我们算法的好坏,但是它并不能区分我们表现更优的算法到底是因为确实算法效果比较好还是单纯因为我们将预测值预设成了0或者1,取到了数量更多的那个值。

skewed classes是指一类数据label偏倚程度很重的数据集,比如说大部分都是0,或者大部分都是1

1.那么我们怎么解决这个问题:evaluation metric

假设0多1少Actual class真实值
10
Prediction Classes1True Positive(TP)False Postive(FP)
预测值0False Negative(FN)True Negative(TN)
True 和False 指示的是预测值与真实值是否相符

Positive 和Negati
4000
ve 指示的是预测值是1还是0

从上面的这个表我们就可以得到

Precision=true_positivepredict_value=1=TPTP+FP

percision表示的是我们预测预测有病(y=1)的人里面有多少真的是有病的

Recall=true_positiveactual_value=1=TPTP+FN

a. 选择不同的threshold

b. 计算每个算法的f score

c. 取最高的f score对应的threshold
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: