无意中看到一些机器学习的问题,顺便解释下(一)
2017-08-09 01:00
337 查看
前言:
我不喜欢听也不喜欢说一些术语,知识本身不是那些装X的术语,而是背后的逻辑关系与内涵。
一个人真正懂得某项技术的标志应该是深入浅出,能够以各种语言说给不同知识级别的人听,并且能够根据环境运用自如。
关于评价分类模型的准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1-Measure等通俗解释
比如测试集60个正例40个反例,我将20个反例识别了出来,其余80个都认为是正例,那么对于正例来说召回率(recall)为60/60=100%,精确率(precision)为60/80=75%,整体准确率(20+60)/100=80%。
带着名称感受下,召回就是一共有多少正样本,你找出来多少;精确率,你认为的正例子里,有多少确实对了,一般希望两者都高,但多少有点矛盾。
F1-Measure就是recall和precision的调和平均,还有延伸的带权重的调和平均。为啥是调和平均而不是其他的呢,假设precision和recall为0.9和0.1的话,算术平均为0.5,调和平均大约0.2;如果分别为0.5和0.5,则算数平均与调和平均都为0.5,也就是说调和平均更倾向于两个指标一致?这里有学数学的大佬解释下?
还有一个曲线ROC和一个值AUC,多分类的混淆矩阵confusion matrix,这里我就偷下懒,因为要画图,我贴个链接吧,有人已经介绍的不错http://www.cnblogs.com/sddai/p/5696870.html
最后我说一句,如果你做的是多分类模型,有人问你分类器召回率是多少的时候,你可以在心里回答,MDZZ!
关于特征的选择,沙x术语3个,包裹式Wrapper、过滤式Filter、嵌入式Embedded,下面楼主解释下我稍微熟悉点的
(1)包裹式Wrapper,思路就是“试”,根据效果选择好的
比如进行用神经网络光伏功率预测(楼主搞新能源并网的,别见怪),有features很多,比如时间、气压、温度、光照、地点经纬度、云量、湿度、风力…那我怎么选择呢,最蠢的方式就是n个feature,有2的n次方个组合,都试一遍,哪个效果好,取哪一组features呗!这就是包裹式的原型,上述方式问题在哪呢?
指数级别,组合爆炸
缓解方案,启发式的比较多,比如遗传算法?这个细节有空再整理。
(2)过滤式Filter,思路就是相关性计算,自变量与因变量相关的留下
继续上一个例子,我分析features和预测目标的相关性进行选择,比如分别计算时间、云量…和光伏功率的皮尔逊相关系数(线性相关性),那些强相关的feature放到模型进行预测,其他的还有互信息(非线性也行)、卡方检验…
(3)嵌入式Embedded,思路全扔进学习器,让学习器自动选择
比如L1和L2正则后,有些features的参数(系数)会变得很小,那部分feature就可以淘汰掉;比如决策树的分裂点的选择是,信息增益率等等啥的也可以衡量feature的价值,像xgboost会顺便生成feature的重要性排序;比如深度学习,本身权重就是学习的一部分
所以听上去,第三个最智能,但凡事没这么简单,没有免费的午餐,第三个模型也是最为复杂的
今天就先写这一点,睡觉啦,有空更,其实是看ti7去了哈哈。
我不喜欢听也不喜欢说一些术语,知识本身不是那些装X的术语,而是背后的逻辑关系与内涵。
一个人真正懂得某项技术的标志应该是深入浅出,能够以各种语言说给不同知识级别的人听,并且能够根据环境运用自如。
关于评价分类模型的准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1-Measure等通俗解释
比如测试集60个正例40个反例,我将20个反例识别了出来,其余80个都认为是正例,那么对于正例来说召回率(recall)为60/60=100%,精确率(precision)为60/80=75%,整体准确率(20+60)/100=80%。
带着名称感受下,召回就是一共有多少正样本,你找出来多少;精确率,你认为的正例子里,有多少确实对了,一般希望两者都高,但多少有点矛盾。
F1-Measure就是recall和precision的调和平均,还有延伸的带权重的调和平均。为啥是调和平均而不是其他的呢,假设precision和recall为0.9和0.1的话,算术平均为0.5,调和平均大约0.2;如果分别为0.5和0.5,则算数平均与调和平均都为0.5,也就是说调和平均更倾向于两个指标一致?这里有学数学的大佬解释下?
还有一个曲线ROC和一个值AUC,多分类的混淆矩阵confusion matrix,这里我就偷下懒,因为要画图,我贴个链接吧,有人已经介绍的不错http://www.cnblogs.com/sddai/p/5696870.html
最后我说一句,如果你做的是多分类模型,有人问你分类器召回率是多少的时候,你可以在心里回答,MDZZ!
关于特征的选择,沙x术语3个,包裹式Wrapper、过滤式Filter、嵌入式Embedded,下面楼主解释下我稍微熟悉点的
(1)包裹式Wrapper,思路就是“试”,根据效果选择好的
比如进行用神经网络光伏功率预测(楼主搞新能源并网的,别见怪),有features很多,比如时间、气压、温度、光照、地点经纬度、云量、湿度、风力…那我怎么选择呢,最蠢的方式就是n个feature,有2的n次方个组合,都试一遍,哪个效果好,取哪一组features呗!这就是包裹式的原型,上述方式问题在哪呢?
指数级别,组合爆炸
缓解方案,启发式的比较多,比如遗传算法?这个细节有空再整理。
(2)过滤式Filter,思路就是相关性计算,自变量与因变量相关的留下
继续上一个例子,我分析features和预测目标的相关性进行选择,比如分别计算时间、云量…和光伏功率的皮尔逊相关系数(线性相关性),那些强相关的feature放到模型进行预测,其他的还有互信息(非线性也行)、卡方检验…
(3)嵌入式Embedded,思路全扔进学习器,让学习器自动选择
比如L1和L2正则后,有些features的参数(系数)会变得很小,那部分feature就可以淘汰掉;比如决策树的分裂点的选择是,信息增益率等等啥的也可以衡量feature的价值,像xgboost会顺便生成feature的重要性排序;比如深度学习,本身权重就是学习的一部分
所以听上去,第三个最智能,但凡事没这么简单,没有免费的午餐,第三个模型也是最为复杂的
今天就先写这一点,睡觉啦,有空更,其实是看ti7去了哈哈。
相关文章推荐
- 无意中在网上看到的文章,都是针对fedora core 6的问题
- 图像处理中的一些基本问题解释
- 关于如何解释机器学习的一些方法
- 机器学习_wordcount的一些问题
- 无意中看到,有一些感受。。。
- 机器学习过度拟合问题一些原因
- 这是我在逛一个微波论坛的时候看到的一些帖子里面对HFSS仿真的一些问题的解决方法,不一定正确,有不对的地方希望指出,我改正!
- 转---asp.net 验证的问题:authentication,解释以及如果要匿名登录一些网页需要如何操作等。
- 非原创,看到以后发现自己在很多时候都忽略了这个问题一些基本的SQL优化
- 机器学习实战:第二章KNN中的一些问题
- 5 设置windows2003 ipsec/l2tp psk 的接入服务器. 及一些看到的问题.
- 详细解释强力的图片加载框架 Glide的配置(顺便补充下CollapsingToolbarLayout的一些功能)
- 关于scanf和gets函数共用时出现的一些问题的解释
- 机器学习过度拟合问题一些原因[转]
- 关于如何解释机器学习的一些方法
- 一些看到的小问题,记载下。
- 让人郁闷了好久的问题,终于解决了,之前网上也看到一些解决方法,但大多没有解决问题,所以记录下来,以供参考之用(ADO Could Not Find The Specified Provider)
- 详细解释强力的图片加载框架 Glide的配置(顺便补充下CollapsingToolbarLayout的一些功能)
- 基于ARM硬件初始化的一些细节问题的解释
- 对MySQL数据库的编码问题的一些解释