您的位置：首页 > 编程语言

深度学习Deep Learning（04）：权重初始化问题2_ReLu激励函数

2017-01-09 15:20 459 查看

github地址：https://github.com/lawlite19/DeepLearning_Python

三、权重初始化问题2_

ReLu

激励函数

1、说明

参考论文：https://arxiv.org/pdf/1502.01852v1.pdf

或者查看这里，我放在github上了：https://github.com/lawlite19/DeepLearning_Python/blob/master/paper/Delving%20Deep%20into%20Rectifiers%20Surpassing%20Human-Level%20Performance%20on%20ImageNet%20Classification%EF%BC%88S%E5%9E%8B%E5%87%BD%E6%95%B0%E6%9D%83%E9%87%8D%E5%88%9D%E5%A7%8B%E5%8C%96%EF%BC%89.pdf

2、

ReLu/PReLu

激励函数

目前

ReLu

激活函数使用比较多，而上面一篇论文没有讨论，如果还是使用同样初始化权重的方法（Xavier初始化）会有问题

PReLu函数定义如下：

等价于：
$f({y_i}) = \max (0,{y_i}) + {a_i}\min (0,{y_i})$

ReLu（左）和PReLu（右）激活函数图像

3、前向传播推导

符号说明

ε……………………………………目标函数

μ……………………………………动量

α……………………………………学习率

f()………………………………激励函数

l……………………………………当前层

L……………………………………神经网络总层数

k……………………………………过滤器

filter

的大小

c……………………………………输入通道个数

x……………………………………

k^2c*1

的向量

d……………………………………过滤器

filter

的个数

b……………………………………偏置向量

${y_l} = {W_l}{{\rm{x}}_l} + {b_l}$
……………………………………………………..(1)

${{\rm{x}}_l} = f({y_{l - 1}})$

${{\rm{c}}_l} = {d_{l - 1}}$

根据式

(1)

得：

$Var[{y_l}] = {n_l}Var[{w_l}{x_l}]$
…………………………………………..(2)

因为初始化权重

均值为0，所以期望：
$E({w_l}) = 0$
，方差：
$Var[{w_l}] = E(w_l^2) - {E^2}({w_l}) = E(w_l^2)$

根据式

(2)

继续推导：

……………………………………..(3)

对于

来说：
$Var[{x_l}] \ne E[x_l^2]$
，除非

的均值也是0,

对于

ReLu

函数来说：
${x_l} = \max (0,{y_{l - 1}})$
，所以不可能均值为0

满足对称区间的分布，并且偏置
${b_{l - 1}} = 0$
，所以
${y_{l - 1}}$
也满足对称区间的分布，所以：

……………………………………(4)

将上式

(4)

代入

(3)

中得：

$Var[{y_l}] = {1 \over 2}{n_l}Var[{w_l}]Var[{y_{l - 1}}]$
……………………………………………….(5)

所以对于

层:

$Var[{y_L}] = Var[{y_1}]\prod\limits_{l = 2}^L {{1 \over 2}{n_l}Var[{w_l}]}$
……………………………………………………………(6)

从上式可以看出，因为累乘的存在，若是
${1 \over 2}{n_l}Var[{w_l}] < 1$
，每次累乘都会使方差缩小，若是大于

，每次会使方差当大。

所以我们希望：

${1 \over 2}{n_l}Var[{w_l}] = 1$

所以初始化方法为：是

满足均值为0，标准差为
$\sqrt {{2 \over {{n_l}}}}$
的高斯分布，同时偏置初始化为

4、反向传播推导

$\Delta {{\rm{x}}_l} = \widehat {{W_l}}\Delta {y_l}$
…………………………………………….(7)

假设
$\widehat {{W_l}}$$$
和
$\Delta {y_l}$
相互独立的

当
$\widehat {{W_l}}$$$
初始化Wie对称区间的分布时，可以得到：
$\Delta {{\rm{x}}_l}$
的均值为0

△x,△y

都表示梯度，即：

$\Delta {\rm{x}} = {{\partial \varepsilon } \over {\partial {\rm{x}}}}$
，
$\Delta y = {{\partial \varepsilon } \over {\partial y}}$

根据反向传播：

$\Delta {y_l} = {f^'}({y_l})\Delta {x_{l + 1}}$

对于

ReLu

函数，f的导数为

或

，且概率是相等的，假设
${f^'}({y_l})$
和
$\Delta {x_{l + 1}}$
是相互独立的，

所以：
$E[\Delta {y_l}] = E[\Delta {x_{l + 1}}]/2 = 0$

所以：
$E[{(\Delta {y_l})^2}] = Var[\Delta {y_l}] = {1 \over 2}Var[\Delta {x_{l + 1}}]$
……………………………………………(8)

根据

(7)

可以得到：

将

层展开得：

$Var[\Delta {x_2}] = Var[\Delta {x_{L + 1}}]\prod\limits_{l = 2}^L {{1 \over 2}\widehat {{n_l}}Var[{w_l}]}$
…………………………………………………..(9)

同样令：
${1 \over 2}\widehat {{n_l}}Var[{w_l}] = 1$

注意这里：
$\widehat {{n_l}} = k_l^2{d_l}$
，而
${n_l} = k_l^2{c_l} = k_l^2{d_{l - 1}}$

所以
${{\rm{w}}_l}$
应满足均值为0，标准差为：
$\sqrt {{2 \over {\widehat {{n_l}}}}}$
的分布

5、正向和反向传播讨论、实验和PReLu函数

对于正向和反向两种初始化权重的方式都是可以的，论文中的模型都能够收敛

比如利用反向传播得到的初始化得到：
$\prod\limits_{l = 2}^L {{1 \over 2}\widehat {{n_l}}Var[{w_l}]} = 1$

对应到正向传播中得到：

所以也不是逐渐缩小的

实验给出了与第一篇论文的比较，如下图所示，当神经网络有30层时，Xavier初始化权重的方法（第一篇论文中的方法）已经不能收敛。

对于PReLu激励函数可以得到：
${1 \over 2}(1 + {a^2}){n_l}Var[{w_l}] = 1$

当

a=0

时就是对应的ReLu激励函数

当

a=1

是就是对应线性函数

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： github 深度学习权重初始化

相关文章推荐

新的分享

章节导航

深度学习Deep Learning（04）：权重初始化问题2_ReLu激励函数

三、权重初始化问题2_
ReLu
激励函数

1、说明

2、
ReLu/PReLu
激励函数

3、前向传播推导

4、反向传播推导

5、正向和反向传播讨论、实验和PReLu函数

深度学习Deep Learning（04）：权重初始化问题2_ReLu激励函数

三、权重初始化问题2_ReLu激励函数

1、说明

2、ReLu/PReLu激励函数

3、前向传播推导

4、反向传播推导

5、正向和反向传播讨论、实验和PReLu函数

三、权重初始化问题2_
ReLu
激励函数

2、
ReLu/PReLu
激励函数