您的位置:首页 > 其它

无意中看到一些机器学习的问题,顺便解释下(一)

2017-08-09 01:00 337 查看
前言:

我不喜欢听也不喜欢说一些术语,知识本身不是那些装X的术语,而是背后的逻辑关系与内涵。

一个人真正懂得某项技术的标志应该是深入浅出,能够以各种语言说给不同知识级别的人听,并且能够根据环境运用自如。

关于评价分类模型的准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1-Measure等通俗解释

比如测试集60个正例40个反例,我将20个反例识别了出来,其余80个都认为是正例,那么对于正例来说召回率(recall)为60/60=100%,精确率(precision)为60/80=75%,整体准确率(20+60)/100=80%。

带着名称感受下,召回就是一共有多少正样本,你找出来多少;精确率,你认为的正例子里,有多少确实对了,一般希望两者都高,但多少有点矛盾

F1-Measure就是recall和precision的调和平均,还有延伸的带权重的调和平均。为啥是调和平均而不是其他的呢,假设precision和recall为0.9和0.1的话,算术平均为0.5,调和平均大约0.2;如果分别为0.5和0.5,则算数平均与调和平均都为0.5,也就是说调和平均更倾向于两个指标一致?这里有学数学的大佬解释下?

还有一个曲线ROC和一个值AUC,多分类的混淆矩阵confusion matrix,这里我就偷下懒,因为要画图,我贴个链接吧,有人已经介绍的不错http://www.cnblogs.com/sddai/p/5696870.html

最后我说一句,如果你做的是多分类模型,有人问你分类器召回率是多少的时候,你可以在心里回答,MDZZ!

关于特征的选择,沙x术语3个,包裹式Wrapper、过滤式Filter、嵌入式Embedded,下面楼主解释下我稍微熟悉点的

(1)包裹式Wrapper,思路就是“试”,根据效果选择好的

比如进行用神经网络光伏功率预测(楼主搞新能源并网的,别见怪),有features很多,比如时间、气压、温度、光照、地点经纬度、云量、湿度、风力…那我怎么选择呢,最蠢的方式就是n个feature,有2的n次方个组合,都试一遍,哪个效果好,取哪一组features呗!这就是包裹式的原型,上述方式问题在哪呢?

指数级别,组合爆炸

缓解方案,启发式的比较多,比如遗传算法?这个细节有空再整理。

(2)过滤式Filter,思路就是相关性计算,自变量与因变量相关的留下

继续上一个例子,我分析features和预测目标的相关性进行选择,比如分别计算时间、云量…和光伏功率的皮尔逊相关系数(线性相关性),那些强相关的feature放到模型进行预测,其他的还有互信息(非线性也行)、卡方检验…

(3)嵌入式Embedded,思路全扔进学习器,让学习器自动选择

比如L1和L2正则后,有些features的参数(系数)会变得很小,那部分feature就可以淘汰掉;比如决策树的分裂点的选择是,信息增益率等等啥的也可以衡量feature的价值,像xgboost会顺便生成feature的重要性排序;比如深度学习,本身权重就是学习的一部分

所以听上去,第三个最智能,但凡事没这么简单,没有免费的午餐,第三个模型也是最为复杂的

今天就先写这一点,睡觉啦,有空更,其实是看ti7去了哈哈。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐