神经网络(全连接)的前向和反向传播
2018-03-12 14:20
417 查看
转自我的知乎专栏:https://zhuanlan.zhihu.com/p/34378516/edit
神经网络模型是人工智能最基础的模型,它的诞生也是受益于神经科学家对猫的大脑的研究。神经网络通过自学习的方式可以获得高度抽象的,手工特征无法达到的特征,在计算机视觉领域取得了革命性的突破。而神经网络之所以最近几年取得了这么大的成功,反向传播算法是一个很重要的原因。可以说,只有深入了解了反向传播算法才可以说真正了解了神经网络的作用过程。
本文尽量用图文并茂的方式讲清楚神经网络的前向和反向传播,并用python做了实现。希望能以最易懂的方式讲清楚这两个东西。至于神经网络的基本构成,如权重,偏置,激活函数,随机梯度下降等基础概念就不再细述,读者可以百度。要理解反向传播,必须得知道偏导数的数学定义,要看懂代码得有一定的python基础,最好对numpy也有一定了解。废话不多说,以下是正文。
首先构建一个最简单的神经网络如下。
所谓全连接,就是指第N层的每个神经元和第N-1层的每个神经元都相连,每个连接都有一个权值。
如上图,输入层有2个节点,编号依次为1,2;隐藏层也有两个节点,编号分别为3,4;输出层也是两个节点,编号为5,6。b1和b2是偏置节点。
其中的符号含义为:
wjiwji表示第j个节点(位于第N层的非偏置节点)和第i个节点(位于第N-1层的非偏置节点)之间的权重。j是目标节点,i是源节点。
wjbwjb 表示第j个节点(位于第N层的非偏置节点)和位于上一层的偏置节点之间的权重。
ajaj表示第j个节点的输出值。
激活函数假定为sigmoid,当然也可以用relu等。sigmoid函数的定义为:
sigmoid(x)=11+e−xsigmoid(x)=11+e−x
为了方便演示,我们给一些实际数据,假定输入数据x1=0.02,x2=0.04x1=0.02,x2=0.04;期望输出也就是目标值为 t1=0.5,t2=0.9t1=0.5,t2=0.9 。
权重w的初始化有很多方法,比如xaiver,msra等,这里就任意赋值了,假定初始化为
w31=0.05,w32=0.1,w41=0.15,w42=0.2,w53=0.25,w54=0.3,w63=0.35,w64=0.4w31=0.05,w32=0.1,w41=0.15,w42=0.2,w53=0.25,w54=0.3,w63=0.35,w64=0.4
偏置项初始化为 b1=0.5,b2=0.9b1=0.5,b2=0.9
w3b=0.5,w4b=0.5,w5b=0.9,w6b=0.9w3b=0.5,w4b=0.5,w5b=0.9,w6b=0.9
y=w∗x+by=w∗x+b
以节点3为例,节点3的输入值为w31x1+w32x2+w3bw31x1+w32x2+w3bw31x1+w32x2+w3bw31x1+w32x2+w3b
节点3的输出值为 a3=sigmoid(w31x1+w32x2+w3b)a3=sigmoid(w31x1+w32x2+w3b)a3=sigmoid(w31x1+w32x2+w3b)a3=sigmoid(w31x1+w32x2+w3b)
实际值为 a3=sigmoid(0.05∗0.02+0.1∗0.04+0.5)=11+e−0.505=0.6236336a3=sigmoid(0.05∗0.02+0.1∗0.04+0.5)=11+e−0.505=0.6236336
同样的节点4的输出值为 a4=sigmoid(w41x1+w42x2+w4b)a4=sigmoid(w41x1+w42x2+w4b)
实际值为 a4=sigmoid(0.15∗0.02+0.2∗0.04+0.5)=11+e−0.011=0.50274997a4=sigmoid(0.15∗0.02+0.2∗0.04+0.5)=11+e−0.011=0.50274997
节点5的输出值为 a5=sigmoid(w53a3+w54a4+w5b)a5=sigmoid(w53a3+w54a4+w5b)
实际值为
y1=a5=sigmoid(0.25∗0.6236336+0.35∗0.50274997+0.9)=11+e1.2318708895=0.225854y1=a5=sigmoid(0.25∗0.6236336+0.35∗0.50274997+0.9)=11+e1.2318708895=0.225854
节点6的输出值为 a6=sigmoid(w63a3+w64a4+w6b)a6=sigmoid(w63a3+w64a4+w6b)a6=sigmoid(w63a3+w64a4+w6b)a6=sigmoid(w63a3+w64a4+w6b)
y2=a6=sigmoid(0.35∗0.6236336+0.4∗0.50274997+0.9)=11+e1.319371748=0.2109228y2=a6=sigmoid(0.35∗0.6236336+0.4∗0.50274997+0.9)=11+e1.319371748=0.2109228
可以看到和目标值的差距还比较大。
以下用数学公式进行表述:
定义网络的输入向量为:
x⃗ =⎡⎣⎢x1x21⎤⎦⎥x⃗ =⎡⎣⎢x1x21⎤⎦⎥x→=[x1x21]x→=[x1x21]
输出向量为:
y⃗ =[y1y2]y⃗ =[y1y2]y→=[y1y2]y→=[y1y2]
权重 矩阵为:
w3→=[w31w32w3b]w3→=[w31w32w3b]
w4→=[w41w42w4b]w4→=[w41w42w4b]
w5→=[w53w54w5b]w5→=[w53w54w5b]
w6→=[w63w64w6b]w6→=[w63w64w6b]
w⃗ =⎡⎣⎢⎢⎢w31w41w51w61w31w42w52w62w3bw4bw5bw6b⎤⎦⎥⎥⎥w→=[w31w31w3bw41w42w4bw51w52w5bw61w62w6b]
激活函数为:
f=sigmoidf=sigmoidf=sigmoidf=sigmoid
节点的输入为:
net1=x1net1=x1
net2=x2net2=x2
net3=w3−→⋅x→net3=w3→⋅x→
net4=w4−→⋅x→net4=w4→⋅x→
net5=w5−→⋅⎡⎣⎢a3a41⎤⎦⎥net5=w5→⋅[a3a41]
net6=w6−→⋅⎡⎣⎢a3a41⎤⎦⎥net6=w6→⋅[a3a41]
节点的输出为:
a⃗ =⎡⎣⎢⎢⎢a3a4a5a6⎤⎦⎥⎥⎥a→=[a3a4a5a6]
a3=f(net3)=f(w3−→⋅x→)a3=f(net3)=f(w3→⋅x→)
a4=f(net4)=f(w4−→⋅x→)a4=f(net4)=f(w4→⋅x→)
a5=y1=f(net5)a5=y1=f(net5)
a6=y2=f(net6)a6=y2=f(net6)
反向传播
进行反向传播前需要确定一个损失函数,损失函数有很多种,这里使用最常用的L2 loss的二分之一。
神经网络模型是人工智能最基础的模型,它的诞生也是受益于神经科学家对猫的大脑的研究。神经网络通过自学习的方式可以获得高度抽象的,手工特征无法达到的特征,在计算机视觉领域取得了革命性的突破。而神经网络之所以最近几年取得了这么大的成功,反向传播算法是一个很重要的原因。可以说,只有深入了解了反向传播算法才可以说真正了解了神经网络的作用过程。
本文尽量用图文并茂的方式讲清楚神经网络的前向和反向传播,并用python做了实现。希望能以最易懂的方式讲清楚这两个东西。至于神经网络的基本构成,如权重,偏置,激活函数,随机梯度下降等基础概念就不再细述,读者可以百度。要理解反向传播,必须得知道偏导数的数学定义,要看懂代码得有一定的python基础,最好对numpy也有一定了解。废话不多说,以下是正文。
首先构建一个最简单的神经网络如下。
所谓全连接,就是指第N层的每个神经元和第N-1层的每个神经元都相连,每个连接都有一个权值。
如上图,输入层有2个节点,编号依次为1,2;隐藏层也有两个节点,编号分别为3,4;输出层也是两个节点,编号为5,6。b1和b2是偏置节点。
其中的符号含义为:
wjiwji表示第j个节点(位于第N层的非偏置节点)和第i个节点(位于第N-1层的非偏置节点)之间的权重。j是目标节点,i是源节点。
wjbwjb 表示第j个节点(位于第N层的非偏置节点)和位于上一层的偏置节点之间的权重。
ajaj表示第j个节点的输出值。
激活函数假定为sigmoid,当然也可以用relu等。sigmoid函数的定义为:
sigmoid(x)=11+e−xsigmoid(x)=11+e−x
为了方便演示,我们给一些实际数据,假定输入数据x1=0.02,x2=0.04x1=0.02,x2=0.04;期望输出也就是目标值为 t1=0.5,t2=0.9t1=0.5,t2=0.9 。
权重w的初始化有很多方法,比如xaiver,msra等,这里就任意赋值了,假定初始化为
w31=0.05,w32=0.1,w41=0.15,w42=0.2,w53=0.25,w54=0.3,w63=0.35,w64=0.4w31=0.05,w32=0.1,w41=0.15,w42=0.2,w53=0.25,w54=0.3,w63=0.35,w64=0.4
偏置项初始化为 b1=0.5,b2=0.9b1=0.5,b2=0.9
w3b=0.5,w4b=0.5,w5b=0.9,w6b=0.9w3b=0.5,w4b=0.5,w5b=0.9,w6b=0.9
前向传播
前向传播比较简单,就是向量点乘,也就是加权求和,然后经过一个激活函数。y=w∗x+by=w∗x+b
以节点3为例,节点3的输入值为w31x1+w32x2+w3bw31x1+w32x2+w3bw31x1+w32x2+w3bw31x1+w32x2+w3b
节点3的输出值为 a3=sigmoid(w31x1+w32x2+w3b)a3=sigmoid(w31x1+w32x2+w3b)a3=sigmoid(w31x1+w32x2+w3b)a3=sigmoid(w31x1+w32x2+w3b)
实际值为 a3=sigmoid(0.05∗0.02+0.1∗0.04+0.5)=11+e−0.505=0.6236336a3=sigmoid(0.05∗0.02+0.1∗0.04+0.5)=11+e−0.505=0.6236336
同样的节点4的输出值为 a4=sigmoid(w41x1+w42x2+w4b)a4=sigmoid(w41x1+w42x2+w4b)
实际值为 a4=sigmoid(0.15∗0.02+0.2∗0.04+0.5)=11+e−0.011=0.50274997a4=sigmoid(0.15∗0.02+0.2∗0.04+0.5)=11+e−0.011=0.50274997
节点5的输出值为 a5=sigmoid(w53a3+w54a4+w5b)a5=sigmoid(w53a3+w54a4+w5b)
实际值为
y1=a5=sigmoid(0.25∗0.6236336+0.35∗0.50274997+0.9)=11+e1.2318708895=0.225854y1=a5=sigmoid(0.25∗0.6236336+0.35∗0.50274997+0.9)=11+e1.2318708895=0.225854
节点6的输出值为 a6=sigmoid(w63a3+w64a4+w6b)a6=sigmoid(w63a3+w64a4+w6b)a6=sigmoid(w63a3+w64a4+w6b)a6=sigmoid(w63a3+w64a4+w6b)
y2=a6=sigmoid(0.35∗0.6236336+0.4∗0.50274997+0.9)=11+e1.319371748=0.2109228y2=a6=sigmoid(0.35∗0.6236336+0.4∗0.50274997+0.9)=11+e1.319371748=0.2109228
可以看到和目标值的差距还比较大。
以下用数学公式进行表述:
定义网络的输入向量为:
x⃗ =⎡⎣⎢x1x21⎤⎦⎥x⃗ =⎡⎣⎢x1x21⎤⎦⎥x→=[x1x21]x→=[x1x21]
输出向量为:
y⃗ =[y1y2]y⃗ =[y1y2]y→=[y1y2]y→=[y1y2]
权重 矩阵为:
w3→=[w31w32w3b]w3→=[w31w32w3b]
w4→=[w41w42w4b]w4→=[w41w42w4b]
w5→=[w53w54w5b]w5→=[w53w54w5b]
w6→=[w63w64w6b]w6→=[w63w64w6b]
w⃗ =⎡⎣⎢⎢⎢w31w41w51w61w31w42w52w62w3bw4bw5bw6b⎤⎦⎥⎥⎥w→=[w31w31w3bw41w42w4bw51w52w5bw61w62w6b]
激活函数为:
f=sigmoidf=sigmoidf=sigmoidf=sigmoid
节点的输入为:
net1=x1net1=x1
net2=x2net2=x2
net3=w3−→⋅x→net3=w3→⋅x→
net4=w4−→⋅x→net4=w4→⋅x→
net5=w5−→⋅⎡⎣⎢a3a41⎤⎦⎥net5=w5→⋅[a3a41]
net6=w6−→⋅⎡⎣⎢a3a41⎤⎦⎥net6=w6→⋅[a3a41]
节点的输出为:
a⃗ =⎡⎣⎢⎢⎢a3a4a5a6⎤⎦⎥⎥⎥a→=[a3a4a5a6]
a3=f(net3)=f(w3−→⋅x→)a3=f(net3)=f(w3→⋅x→)
a4=f(net4)=f(w4−→⋅x→)a4=f(net4)=f(w4→⋅x→)
a5=y1=f(net5)a5=y1=f(net5)
a6=y2=f(net6)a6=y2=f(net6)
反向传播
进行反向传播前需要确定一个损失函数,损失函数有很多种,这里使用最常用的L2 loss的二分之一。
相关文章推荐
- 全连接神经网络的前向和反向传播推导
- [神经网络]从反向传播(BP)到去噪自动编码器(DAE)
- 神经网络快速入门:什么是多层感知器和反向传播?
- 神经网络的前向传播和误差反向传播(NN,RNN,LSTM)(三)
- 神经网络之梯度下降法和反向传播BP
- 神经网络误差反向传播
- TensorFlow 深度学习框架 (2)-- 反向传播优化神经网络
- 反向传播(BPTT)与循环神经网络(RNN)文本预测
- 反向传播神经网络极简入门
- 机器学习笔记07:神经网络的反向传播(Backpropagation)
- 依赖反向传播改进神经网络数据处理的精确度
- CS231n学习记录Lec5 Backpropagation and Neural Networks反向传播与神经网络
- 神经网络学习(三)反向(BP)传播算法(1)
- TensorFlow 深度学习框架 (2)-- 反向传播优化神经网络
- 神经网络中的反向传播的推导和python实现
- 神经网络反向传播方法
- 深度卷积神经网络学习笔记2:步长不为1的卷积前向传播和反向传播
- 一文弄懂神经网络中的反向传播——BackPropagation
- 神经网络中的矩阵求导及反向传播推导
- CNN反向传播和普通神经网络的联系和比较