您的位置：首页 > 其它

无意中看到一些机器学习的问题，顺便解释下（一）

2017-08-09 01:00 337 查看

前言：

我不喜欢听也不喜欢说一些术语，知识本身不是那些装X的术语，而是背后的逻辑关系与内涵。

一个人真正懂得某项技术的标志应该是深入浅出，能够以各种语言说给不同知识级别的人听，并且能够根据环境运用自如。

关于评价分类模型的准确率（Accuracy）、精确率（Precision）、召回率（Recall）、F1-Measure等通俗解释

比如测试集60个正例40个反例，我将20个反例识别了出来，其余80个都认为是正例，那么对于正例来说召回率（recall）为60/60=100%，精确率（precision）为60/80=75%，整体准确率（20+60）/100=80%。

带着名称感受下，召回就是一共有多少正样本，你找出来多少；精确率，你认为的正例子里，有多少确实对了，一般希望两者都高，但多少有点矛盾。

F1-Measure就是recall和precision的调和平均，还有延伸的带权重的调和平均。为啥是调和平均而不是其他的呢，假设precision和recall为0.9和0.1的话，算术平均为0.5，调和平均大约0.2；如果分别为0.5和0.5，则算数平均与调和平均都为0.5，也就是说调和平均更倾向于两个指标一致？这里有学数学的大佬解释下？

还有一个曲线ROC和一个值AUC，多分类的混淆矩阵confusion matrix，这里我就偷下懒，因为要画图，我贴个链接吧，有人已经介绍的不错http://www.cnblogs.com/sddai/p/5696870.html

最后我说一句，如果你做的是多分类模型，有人问你分类器召回率是多少的时候，你可以在心里回答，MDZZ！

关于特征的选择，沙x术语3个，包裹式Wrapper、过滤式Filter、嵌入式Embedded，下面楼主解释下我稍微熟悉点的

（1）包裹式Wrapper，思路就是“试”，根据效果选择好的

比如进行用神经网络光伏功率预测（楼主搞新能源并网的，别见怪），有features很多，比如时间、气压、温度、光照、地点经纬度、云量、湿度、风力…那我怎么选择呢，最蠢的方式就是n个feature，有2的n次方个组合，都试一遍，哪个效果好，取哪一组features呗！这就是包裹式的原型，上述方式问题在哪呢？

指数级别，组合爆炸

缓解方案，启发式的比较多，比如遗传算法？这个细节有空再整理。

（2）过滤式Filter，思路就是相关性计算，自变量与因变量相关的留下

继续上一个例子，我分析features和预测目标的相关性进行选择，比如分别计算时间、云量…和光伏功率的皮尔逊相关系数（线性相关性），那些强相关的feature放到模型进行预测，其他的还有互信息（非线性也行）、卡方检验…

（3）嵌入式Embedded，思路全扔进学习器，让学习器自动选择

比如L1和L2正则后，有些features的参数（系数）会变得很小，那部分feature就可以淘汰掉；比如决策树的分裂点的选择是，信息增益率等等啥的也可以衡量feature的价值，像xgboost会顺便生成feature的重要性排序；比如深度学习，本身权重就是学习的一部分

所以听上去，第三个最智能，但凡事没这么简单，没有免费的午餐，第三个模型也是最为复杂的

今天就先写这一点，睡觉啦，有空更，其实是看ti7去了哈哈。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航