您的位置：首页 > 其它

分类器的评估与选择

2016-06-02 13:45 260 查看

混淆矩阵：分析分类器的预测能力。以二元分类为例

实际\预测	y=1(阳)	y=0(阴)	合计
y=1	TP	FN	P
y=0	FP	TN	N

其中：

TP：“真阳性”的个数，预测“阳性为阳性”，正确。

TN：“真阴性”的个数，预测“阴性为阴性”，正确。

FP：“真阳性”的个数，预测“阴性为阳性”，错误。

FN：“真阳性”的个数，预测“阳性为阴性”，错误。

常用的评估分类器性能的指标。

准确率=TR=预测正确的个数/预测的个体总数=(TP+TN)/(P+N)
准确率反映分类器整体的预测能力

灵敏度=真阳性率TPR=正确预测为阳的个数/实际为阳的总个数=TP/P
灵敏度反映分类器整体正确预测“阳性”的能力

特异度=真阴性率TNR=正确预测为阴的个数/实际为阴的总个数=TN/N
特异度反映分类器整体正确预测“阴性”的能力

我们往往关注y=1(阳)的类，这就要求我们的分类器准确率高，灵敏度也要高。
对于同一个分类器，准确率和灵敏度可能有两种截然不同的评价，准确率很高，灵敏度却很低——“类不平衡问题”，y=1很少，y=0很多。
处理类失衡数据集的技术：过抽样、欠抽样和阈值移动。

过抽样：对y=1的元组重复抽样增加个数。
欠抽样：随机删除含y=0的元组减少个数。
阈值移动：移动阈值来降低假阴性出现的机会。
全面的评价工具：ROC曲线，假阳性率FPR为横坐标，真阳性率TPR为纵坐标。曲线下的面积大小度量了分类器正确预测的效果，值越接近1，分类器效果越好。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 数据挖掘

相关文章推荐

新的分享

章节导航