批标准化(Batch Norm)
2018-01-06 23:26
267 查看
BN作用:
- 加速收敛
- 控制过拟合,可以少用或不用Dropout和正则
- 降低网络对初始化权重不敏感
- 允许使用较大的学习率
一、如何加速收敛?
- 通过归一化输入值/隐藏单元值,以获得类似的范围值,可加速学习。
- 限制了在前层的参数更新会影响数值分布的程度,使层的输出更加稳定,神经网络的之后的层就会有更坚实的基础(减弱了后层的参数因前层参数发生变化而受到的影响) 减弱了前层参数的作用与后层参数的作用之间的联系,使得网络每层都可以自己学习,稍稍独立于其他层,有助于加速整个网络的学习。
二、为什么说BN也会起到一定的正则化作用?
对于Dropout来讲,给每个隐藏单元一定概率置零的可能,这样就相当于给网络引入了噪声。迫使Dropout后部单元不过分依赖于前面任何一个隐藏单元。
而BN,因为是在Mini-batch上计算mean、variance,而不是整个数据集上。均值和方差有一些小噪音,在进行缩放过程,γ、β也会引入噪声,这样和dropout类似,它往每个隐藏层的激活值上增加了噪音,所以起到了一定的正则化作用。
当mini-batch变大时,由于均值方差更加接近真实值,所以噪声会减小,就会减少正则化的效果。
三、使用BN为何可以不使用参数b?
\[
Z=WX+b
\]
无论b为何值,去均值之后结果都是一样的,所以说,使用Batch Norm时可以不使用偏置b。
这个偏置的效果在标准化中缩放过程中能体现。
\[
\tilde{Z} = \gamma Z+\beta
\]
相关文章推荐
- CAFFE源码学习笔记之batch_norm_layer
- google batchnorm 资料总结
- CAFFE源码学习笔记之batch_norm_layer
- slim的batch_norm出现的问题
- CAFFE源码学习笔记之batch_norm_layer
- tensorlayer旧版本(1.3以下版本)中,predict过程也会更新BatchNormLayer的参数
- CAFFE源码学习笔记之batch_norm_layer
- 基础 | batchnorm原理及代码详解
- CAFFE源码学习笔记之batch_norm_layer
- Caffe 中 BN(BatchNorm ) 层的参数均值、方差和滑动系数解读
- tensorflow图片归一化之tf.layers.batch_normalization/tf.nn.batch_normalization/tf.contrib.layers.batch_norm
- Computational graph of the BatchNorm-Layer
- google batchnorm 资料总结
- CAFFE源码学习笔记之batch_norm_layer
- CAFFE源码学习笔记之batch_norm_layer
- BatchNorm layer设定
- tensorflow学习——tf.layers.batch_normalization/tf.nn.batch_normalization/tf.contrib.layers.batch_norm
- caffe改进:prelu layer,cudnn batch norm layer,以及convolution depthwise separable layer
- CAFFE源码学习笔记之batch_norm_layer
- tensorflow 踩坑记之batch_norm