您的位置:首页 > 其它

机器学习-模型评估和选择

2015-05-18 09:07 489 查看
机器学习模型评估:灵敏度、特异性、F分数

评价分类器性能的度量

分类器评估度量包括准确率(又称“识别率”)、敏感度(或称为召回率recall)、特效性、精度(precision)F1和FΒ。

[thead]
[/thead]
度量公式
准确率、识别率TP+TNP+N\dfrac{TP+TN}{P+N}
错误率、识分类率FP+FNP+N\dfrac{FP+FN}{P+N}
敏感度TPP\dfrac{TP}{P}
特效性、真负例率TNN\dfrac{TN}{N
}
精度TPTP+FP\dfrac{TP}{TP+FP}
F分数2∗precision∗recallprecision+recall\dfrac{2*precision*recall}{precision+recall}
FβF_{\beta}(1+β2)∗precision∗recallβ2∗precision+recall\dfrac{(1+{\beta}^2)*precision*recall}{{\beta}^2*precision+recall}
TP:被分类器正确分类的正元组;

TN:被分类器正确分类的负元组;

FP:被错误的标记为正元组的负元组;

FN:被错误标记为负元组的正元组。

混淆矩阵表示

灵敏性SN=TPPSN=\dfrac{TP}{P}

特异性SP=TNNSP=\dfrac{TN}{N}

精度和召回率

precision=TPTP+FPprecision=\dfrac{TP}{TP+FP}

Recall=TPTP+FNRecall=\dfrac{TP}{TP+FN}

k倍交叉验证

初始数据随机划分为k个互不相交的自己,每个自己的大小大致相等。训练和检验进行k次。在第i次迭代,分区Di用做检验集,其余的分区一起用作训练模型,

ROC曲线



小结

混淆矩阵可以用来评估分类器的质量。

显著性检验和ROC曲线对于模型选择是有用的。显著性检验可以用来评估两个分类器准确率的差别是否处于偶然。ROC曲线绘制一个或多个分类器的真阳率(或灵敏性)与假阳率(或1-sp)。

组合方法可以通过学习和组合一系列个体基分类模型提高总体的准确率。装袋bagging、提升boosting和随机森林randomForest都是流行的组合方法。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: