[zz] ROC曲线
2015-09-15 15:50
288 查看
wiki
https://zh.wikipedia.org/wiki/ROC%E6%9B%B2%E7%BA%BF
在信号检测理论中,接收者操作特征曲线(receiver operating characteristic curve,或者叫ROC曲线)是一种座标图式的分析工具,用于 (1) 选择最佳的信号侦测模型、舍弃次佳的模型。 (2) 在同一模型中设定最佳阈值。
在做决策时,ROC分析能不受成本/效益的影响,给出客观中立的建议。
ROC曲线首先是由二战中的电子工程师和雷达工程师发明的,用来侦测战场上的敌军载具(飞机、船舰),也就是信号检测理论。之后很快就被引入了心理学来进行信号的知觉检测。数十年来,ROC分析被用于医学、无线电、生物学、犯罪心理学领域中,而且最近在机器学习(machine learning)和数据挖掘(data mining)领域也得到了很好的发展。
分类模型(又称分类器,或诊断)是将一个实例映射到一个特定类的过程。ROC分析的是二元分类模型,也就是输出结果只有两种类别的模型,例如:(阳性/阴性)(有病/没病)(垃圾邮件/非垃圾邮件)(敌军/非敌军)。
当讯号侦测(或变数测量)的结果是一个连续值时,类与类的边界必须用一个阈值(英语:threshold)来界定。举例来说,用血压值来检测一个人是否有高血压,测出的血压值是连续的实数(从0~200都有可能),以收缩压140/舒张压90为阈值,阈值以上便诊断为有高血压,阈值未满者诊断为无高血压。二元分类模型的个案预测有四种结局:
真阳性(TP):诊断为有,实际上也有高血压。
伪阳性(FP):诊断为有,实际却没有高血压。
真阴性(TN):诊断为没有,实际上也没有高血压。
伪阴性(FN):诊断为没有,实际却有高血压。
这四种结局可以画成2 × 2的Confusion matrix:
ROC空间将伪阳性率(FPR)定义为 X 轴,真阳性率(TPR)定义为 Y 轴。
TPR:在所有实际为阳性的样本中,被正确地判断为阳性之比率。
FPR:在所有实际为阴性的样本中,被错误地判断为阳性之比率。
给定一个二元分类模型和它的阈值,就能从所有样本的(阳性/阴性)真实值和预测值计算出一个 (X=FPR, Y=TPR) 座标点。
从 (0, 0) 到 (1,1) 的对角线将ROC空间划分为左上/右下两个区域,在这条线的以上的点代表了一个好的分类结果(胜过随机分类),而在这条线以下的点代表了差的分类结果(劣于随机分类)。
https://zh.wikipedia.org/wiki/ROC%E6%9B%B2%E7%BA%BF
在信号检测理论中,接收者操作特征曲线(receiver operating characteristic curve,或者叫ROC曲线)是一种座标图式的分析工具,用于 (1) 选择最佳的信号侦测模型、舍弃次佳的模型。 (2) 在同一模型中设定最佳阈值。
在做决策时,ROC分析能不受成本/效益的影响,给出客观中立的建议。
ROC曲线首先是由二战中的电子工程师和雷达工程师发明的,用来侦测战场上的敌军载具(飞机、船舰),也就是信号检测理论。之后很快就被引入了心理学来进行信号的知觉检测。数十年来,ROC分析被用于医学、无线电、生物学、犯罪心理学领域中,而且最近在机器学习(machine learning)和数据挖掘(data mining)领域也得到了很好的发展。
分类模型(又称分类器,或诊断)是将一个实例映射到一个特定类的过程。ROC分析的是二元分类模型,也就是输出结果只有两种类别的模型,例如:(阳性/阴性)(有病/没病)(垃圾邮件/非垃圾邮件)(敌军/非敌军)。
当讯号侦测(或变数测量)的结果是一个连续值时,类与类的边界必须用一个阈值(英语:threshold)来界定。举例来说,用血压值来检测一个人是否有高血压,测出的血压值是连续的实数(从0~200都有可能),以收缩压140/舒张压90为阈值,阈值以上便诊断为有高血压,阈值未满者诊断为无高血压。二元分类模型的个案预测有四种结局:
真阳性(TP):诊断为有,实际上也有高血压。
伪阳性(FP):诊断为有,实际却没有高血压。
真阴性(TN):诊断为没有,实际上也没有高血压。
伪阴性(FN):诊断为没有,实际却有高血压。
这四种结局可以画成2 × 2的Confusion matrix:
真实值 | 总 数 | |||
---|---|---|---|---|
p | n | |||
预 测 输 出 | p' | 真阳性 (TP) | 伪阳性 (FP) | P' |
n' | 伪阴性 (FN) | 真阴性 (TN) | N' | |
总数 | P | N |
阳性 (P, positive)阴性 (N, Negative)真阳性 (TP, true positive)正确的肯定。又称:命中 (hit)真阴性 (TN, true negative)正确的否定。又称:正确拒绝 (correct rejection)伪阳性 (FP, false positive)错误的肯定,又称:假警报 (false alarm),第二型错误伪阴性 (FN, false negative)错误的否定,又称:未命中 (miss),第一型错误真阳性率 (TPR, true positive rate)又称:命中率 (hit rate)TPR = TP / P = TP / (TP+FN)伪阳性率(FPR, false positive rate)又称:错误命中率,假警报率 (false alarm rate)FPR = FP / N = FP / (FP + TN)准确度 (ACC, accuracy)ACC = (TP + TN) / (P + N)即:(真阳性+真阴性) / 总样本数真阴性率 (TNR)又称:特异度 (SPC, specificity)SPC = TN / N = TN / (FP + TN) = 1 - FPR阳性预测值 (PPV)PPV = TP / (TP + FP)阴性预测值 (NPV)NPV = TN / (TN + FN)假发现率 (FDR)FDR = FP / (FP + TP)Matthews相关系数 (MCC),即 Phi相关系数MCC = (TP*TN - FP*FN) / \sqrt{P N P' N'}F1评分F1 = 2TP/(P+P') |
Source: Fawcett (2006). |
TPR:在所有实际为阳性的样本中,被正确地判断为阳性之比率。
FPR:在所有实际为阴性的样本中,被错误地判断为阳性之比率。
给定一个二元分类模型和它的阈值,就能从所有样本的(阳性/阴性)真实值和预测值计算出一个 (X=FPR, Y=TPR) 座标点。
从 (0, 0) 到 (1,1) 的对角线将ROC空间划分为左上/右下两个区域,在这条线的以上的点代表了一个好的分类结果(胜过随机分类),而在这条线以下的点代表了差的分类结果(劣于随机分类)。
曲线下面积(AUC)
AUC值越大的分类器,正确率越高。相关文章推荐
- sql语句总结
- APK类似静默安装的方法
- 初次接触软件测试
- txt转换pdf格式的转换步骤详解
- IOS开发+(void)load与+(void)initialize区别
- 【算法】——八大排序理解篇
- 10-EMM Procedure 1. Initial Attach Part-1
- 麦克风阵列之声源定位
- sleep、yield、wait知识点
- java对象的交互
- java学习之List集合
- QString和QByteArray的区别
- 锂电池国标将倒逼充电宝行业优胜劣汰
- 充电宝地铁自燃引安全担忧
- codeforces 219C C. Color Stripe(dp)
- 嵌入式动画
- Redis Sentinel实现Failover
- 【Java基础】--算法与数组
- binbinyang---Android 应用第一次运行时,引导页面的设置方法(只让程序Acitivity运行一次的设置方法)+SharedPreferences
- xUtils 源码解析