您的位置：首页 > 其它

[zz] ROC曲线

2015-09-15 15:50 288 查看

wiki
https://zh.wikipedia.org/wiki/ROC%E6%9B%B2%E7%BA%BF
在信号检测理论中，接收者操作特征曲线（receiver operating characteristic curve，或者叫ROC曲线）是一种座标图式的分析工具，用于 (1) 选择最佳的信号侦测模型、舍弃次佳的模型。 (2) 在同一模型中设定最佳阈值。

在做决策时，ROC分析能不受成本／效益的影响，给出客观中立的建议。

ROC曲线首先是由二战中的电子工程师和雷达工程师发明的，用来侦测战场上的敌军载具（飞机、船舰），也就是信号检测理论。之后很快就被引入了心理学来进行信号的知觉检测。数十年来，ROC分析被用于医学、无线电、生物学、犯罪心理学领域中，而且最近在机器学习（machine learning）和数据挖掘（data mining）领域也得到了很好的发展。

分类模型（又称分类器，或诊断）是将一个实例映射到一个特定类的过程。ROC分析的是二元分类模型，也就是输出结果只有两种类别的模型，例如：（阳性／阴性）（有病／没病）（垃圾邮件／非垃圾邮件）（敌军／非敌军）。

当讯号侦测（或变数测量）的结果是一个连续值时，类与类的边界必须用一个阈值（英语：threshold）来界定。举例来说，用血压值来检测一个人是否有高血压，测出的血压值是连续的实数（从0~200都有可能），以收缩压140／舒张压90为阈值，阈值以上便诊断为有高血压，阈值未满者诊断为无高血压。二元分类模型的个案预测有四种结局：

真阳性（TP）：诊断为有，实际上也有高血压。

伪阳性（FP）：诊断为有，实际却没有高血压。

真阴性（TN）：诊断为没有，实际上也没有高血压。

伪阴性（FN）：诊断为没有，实际却有高血压。

这四种结局可以画成2 × 2的Confusion matrix：

	真实值	总数
p	n
预测输出	p'	真阳性 (TP)	伪阳性 (FP)	P'
n'	伪阴性 (FN)	真阴性 (TN)	N'
总数	P	N

阳性 (P, positive)阴性 (N, Negative)真阳性 (TP, true positive)正确的肯定。又称：命中 (hit)真阴性 (TN, true negative)正确的否定。又称：正确拒绝 (correct rejection)伪阳性 (FP, false positive)错误的肯定，又称：假警报 (false alarm)，第二型错误伪阴性 (FN, false negative)错误的否定，又称：未命中 (miss)，第一型错误真阳性率 (TPR, true positive rate)又称：命中率 (hit rate)TPR = TP / P = TP / (TP+FN)伪阳性率(FPR, false positive rate)又称：错误命中率，假警报率 (false alarm rate)FPR = FP / N = FP / (FP + TN)准确度 (ACC, accuracy)ACC = (TP + TN) / (P + N)即：(真阳性+真阴性) / 总样本数真阴性率 (TNR)又称：特异度 (SPC, specificity)SPC = TN / N = TN / (FP + TN) = 1 - FPR阳性预测值 (PPV)PPV = TP / (TP + FP)阴性预测值 (NPV)NPV = TN / (TN + FN)假发现率 (FDR)FDR = FP / (FP + TP)Matthews相关系数 (MCC)，即 Phi相关系数MCC = (TP*TN - FP*FN) / \sqrt{P N P' N'}F1评分F1 = 2TP/(P+P')

Source: Fawcett (2006).

ROC空间将伪阳性率（FPR）定义为 X 轴，真阳性率（TPR）定义为 Y 轴。

TPR：在所有实际为阳性的样本中，被正确地判断为阳性之比率。

FPR：在所有实际为阴性的样本中，被错误地判断为阳性之比率。

给定一个二元分类模型和它的阈值，就能从所有样本的（阳性／阴性）真实值和预测值计算出一个 (X=FPR, Y=TPR) 座标点。

从 (0, 0) 到 (1,1) 的对角线将ROC空间划分为左上／右下两个区域，在这条线的以上的点代表了一个好的分类结果（胜过随机分类），而在这条线以下的点代表了差的分类结果（劣于随机分类）。

曲线下面积（AUC）

AUC值越大的分类器，正确率越高。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航