noise and error
2016-08-08 10:53
218 查看
我们前面讲的所有东西都没有把 数据的noise 考虑进去。即都是假设x是服从未知的P(X)分布(分布不用知道),用最标准的目标函数f(f不用知道的),得到其对应的y,然后从中抽取N个数据训练模型(其他的我们数据也不知道)。
可是如果数据有noise的话,我们并不能确定我们手里的y就是正确的(即是f给的)。那我们该怎么处理呢??方法就是认为y是一个目标分布,
.
即原来是
现在是
我们可以认为真正的y=‘ideal mini-target’+noise
比如
我们就认为这个x的“ideal mini-target”y=0.7.他的noise 为 0.3.
如果是回归的话,可以用平方误差(有很多,这里先只说一种)
比如
如果用 0/1 error 做
总结得到,用0/1 error 选出来的f(x),为
如果用 平方error来做
总结得到,用平方 error 选出来的f(x),为
里面填的值为对应所引起的代价值!!!
比如,当f=1且g=1,没有错误,代价为0
f=-1且g=-1,没有错误,代价为0
f=-1且g=+1,发生错误,代价为 false accept
f=+1且g=-1,发生错误,代价为 false reject
其实,有的时候false accept和false reject的值是不一样的。比如,这是一个用指纹识别来是否允许开启电脑的系统,对于机密机构,他肯定是,宁可让本可以用的人不能用,也不想不能用的人可以使用。即宁可false accept高于false reject。那么假设false accept的代价值为1000,false reject的代价值为1.
那么如果我们用分类器来训练模型的话,使用的Ein应该为
这里我们用Ewin表示,表示是加权的分类器。
我们用先前提到的 packet algorithm来做。
这个好像不好做,那么我们能否把表达式Ewin转化为Ein呢??
方法很简单
我们的问题是
下面的D表示数据。
由于y=-1且h=1的代价为1000,那么我们能否把每个y=-1的数据拷贝1000份。转化为下面的情况
这样,y=-1且h=1的代价就可以扩大1000倍,而y=-1且h=-1由于本就是所以没有影响。
那么现在我们就可以用原来的packet algorithm了。
可是这样做的话,把数据增加这么多,而且还是一样的,同时伴随着数据拷贝,读写的操作,那模型的运算量会不会很大???
解决的方法就是,我不把y=-1数据拷贝1000份,
由于packet algorithm是随机抽取数据,那么,我们就使y=-1的被选中 的 概率 扩大1000倍即可。
可是如果数据有noise的话,我们并不能确定我们手里的y就是正确的(即是f给的)。那我们该怎么处理呢??方法就是认为y是一个目标分布,
.
即原来是
现在是
我们可以认为真正的y=‘ideal mini-target’+noise
比如
我们就认为这个x的“ideal mini-target”y=0.7.他的noise 为 0.3.
误差评估
如果是分类的话,用0/1 error(有很多,这里先只说一种)如果是回归的话,可以用平方误差(有很多,这里先只说一种)
比如
如果用 0/1 error 做
总结得到,用0/1 error 选出来的f(x),为
如果用 平方error来做
总结得到,用平方 error 选出来的f(x),为
所以,当我们的评比方式不同的时候,得到的结果也是不同的。所以选择时,要慎重。
错误代价框图
看下图里面填的值为对应所引起的代价值!!!
比如,当f=1且g=1,没有错误,代价为0
f=-1且g=-1,没有错误,代价为0
f=-1且g=+1,发生错误,代价为 false accept
f=+1且g=-1,发生错误,代价为 false reject
其实,有的时候false accept和false reject的值是不一样的。比如,这是一个用指纹识别来是否允许开启电脑的系统,对于机密机构,他肯定是,宁可让本可以用的人不能用,也不想不能用的人可以使用。即宁可false accept高于false reject。那么假设false accept的代价值为1000,false reject的代价值为1.
那么如果我们用分类器来训练模型的话,使用的Ein应该为
这里我们用Ewin表示,表示是加权的分类器。
我们用先前提到的 packet algorithm来做。
这个好像不好做,那么我们能否把表达式Ewin转化为Ein呢??
方法很简单
我们的问题是
下面的D表示数据。
由于y=-1且h=1的代价为1000,那么我们能否把每个y=-1的数据拷贝1000份。转化为下面的情况
这样,y=-1且h=1的代价就可以扩大1000倍,而y=-1且h=-1由于本就是所以没有影响。
那么现在我们就可以用原来的packet algorithm了。
可是这样做的话,把数据增加这么多,而且还是一样的,同时伴随着数据拷贝,读写的操作,那模型的运算量会不会很大???
解决的方法就是,我不把y=-1数据拷贝1000份,
由于packet algorithm是随机抽取数据,那么,我们就使y=-1的被选中 的 概率 扩大1000倍即可。
相关文章推荐
- 林轩田-机器学习基石 课堂笔记(八) Noise and Error
- NTU-Coursera机器学习:Noise and Error
- 公开课 | 机器学习基石08 Noise and Error
- 林轩田之机器学习课程笔记(why can machines learn之noise and error)(32之8)
- 关于Noise and Error主题的一些小知识
- 《机器学习基石》8-Noise and Error
- 机器学习基石-Noise and Error
- ML基石_8_NoiseAndError
- Coursera台大机器学习课程笔记7 -- Noise and Error
- 台湾国立大学机器学习基石.听课笔记(第八讲):Noise and Error
- 台湾国立大学(林轩田)《机器学习基石》(第7-8讲)VC Dimension ,Noise and Error
- 林轩田机器学习基石心得8:Noise and Error
- Note for video Machine Learning and Data Mining——error and noise
- [台大机器学习笔记整理]noise and error measure以及在此基础上Learning flow的扩展
- Coursera台大机器学习课程笔记7 -- Noise and Error
- 机器学习基石第八讲:noise and error
- 8 - 机器学习中的噪音与错误(Noise and Error)
- 台湾大学林轩田机器学习基石课程学习笔记8 -- Noise and Error
- A LNK2005 error occurs when the CRT library and MFC libraries are linked in the wrong order in Visual C++
- The connection to adb is down, and a severe error has occured.