分类器的评估与选择
2016-06-02 13:45
260 查看
混淆矩阵:分析分类器的预测能力。以二元分类为例
其中:
TP:“真阳性”的个数,预测“阳性为阳性”,正确。
TN:“真阴性”的个数,预测“阴性为阴性”,正确。
FP:“真阳性”的个数,预测“阴性为阳性”,错误。
FN:“真阳性”的个数,预测“阳性为阴性”,错误。
常用的评估分类器性能的指标。
准确率=TR=预测正确的个数/预测的个体总数=(TP+TN)/(P+N)
准确率反映分类器整体的预测能力
灵敏度=真阳性率TPR=正确预测为阳的个数/实际为阳的总个数=TP/P
灵敏度反映分类器整体正确预测“阳性”的能力
特异度=真阴性率TNR=正确预测为阴的个数/实际为阴的总个数=TN/N
特异度反映分类器整体正确预测“阴性”的能力
我们往往关注y=1(阳)的类,这就要求我们的分类器准确率高,灵敏度也要高。
对于同一个分类器,准确率和灵敏度可能有两种截然不同的评价,准确率很高,灵敏度却很低——“类不平衡问题”,y=1很少,y=0很多。
处理类失衡数据集的技术:过抽样、欠抽样和阈值移动。
过抽样:对y=1的元组重复抽样增加个数。
欠抽样:随机删除含y=0的元组减少个数。
阈值移动:移动阈值来降低假阴性出现的机会。
全面的评价工具:ROC曲线,假阳性率FPR为横坐标,真阳性率TPR为纵坐标。曲线下的面积大小度量了分类器正确预测的效果,值越接近1,分类器效果越好。
实际\预测 | y=1(阳) | y=0(阴) | 合计 |
y=1 | TP | FN | P |
y=0 | FP | TN | N |
TP:“真阳性”的个数,预测“阳性为阳性”,正确。
TN:“真阴性”的个数,预测“阴性为阴性”,正确。
FP:“真阳性”的个数,预测“阴性为阳性”,错误。
FN:“真阳性”的个数,预测“阳性为阴性”,错误。
常用的评估分类器性能的指标。
准确率=TR=预测正确的个数/预测的个体总数=(TP+TN)/(P+N)
准确率反映分类器整体的预测能力
灵敏度=真阳性率TPR=正确预测为阳的个数/实际为阳的总个数=TP/P
灵敏度反映分类器整体正确预测“阳性”的能力
特异度=真阴性率TNR=正确预测为阴的个数/实际为阴的总个数=TN/N
特异度反映分类器整体正确预测“阴性”的能力
我们往往关注y=1(阳)的类,这就要求我们的分类器准确率高,灵敏度也要高。
对于同一个分类器,准确率和灵敏度可能有两种截然不同的评价,准确率很高,灵敏度却很低——“类不平衡问题”,y=1很少,y=0很多。
处理类失衡数据集的技术:过抽样、欠抽样和阈值移动。
过抽样:对y=1的元组重复抽样增加个数。
欠抽样:随机删除含y=0的元组减少个数。
阈值移动:移动阈值来降低假阴性出现的机会。
全面的评价工具:ROC曲线,假阳性率FPR为横坐标,真阳性率TPR为纵坐标。曲线下的面积大小度量了分类器正确预测的效果,值越接近1,分类器效果越好。
相关文章推荐
- 数据挖掘之Apriori算法详解和Python实现代码分享
- 详解BI/数据分析/数据挖掘/业务分析概念 7fe0
- Sedgewick之巨著《算法》,与高德纳TAOCP一脉相承
- 普通最小二乘法的推导证明
- 最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用2
- 数据挖掘项目的特征和关键环节
- 聚类算法总结
- 一位数据挖掘成功人士给数据挖掘在读研究生的建议
- 数据挖掘网上资料大全
- 数据挖掘技术与用户知识获取
- Data mining 数据挖掘
- 数据挖掘
- 大数据,且行且思( 文/ 占超群)
- HUNTER
- kmeans python版
- 数据挖掘-聚类-K-means算法Java实现
- 数据挖掘书籍
- 浅谈R语言的面向对象编程
- Python3和2常用语句的语法区别1.0
- Python3和2常用语句的语法区别2.0