Deep Sparse Rectifier Neural Networks(阅读)
2015-09-01 13:39
281 查看
1、脑神经元接受信号更精确的激活模型(红框里前端状态完全没有激活):
传统神经网络中最常用的两个激活函数,Sigmoid系(Logistic-Sigmoid、Tanh-Sigmoid)
Rectifier and softplus激活函数:
Softplus函数是Logistic-Sigmoid函数原函数, Softplus(x)=log(1+e x ) ,Softplus可以看作是强制非负校正函数max(0,x) 平滑版本。经验规则的初始化W之后,传统的Sigmoid系函数同时近乎有一半的神经元被激活,这不符合神经科学的研究,而且会给深度网络训练带来巨大问题。校正函数max(0,x) 成了近似符合该模型的诠释。
2、稀疏性的优点
原始数据(以自然数据为主)中通常缠绕着高度密集的特征,从原始数据中分离出关键特征数据。
有效的可变表示,不同的输入可能包含着大小不同关键特征,使用大小可变的数据结构去做容器,则更加灵活。
线性可分性,稀疏特征有更大可能线性可分,或者对非线性映射机制有更小的依赖。
稠密分布但是稀疏,稠密缠绕分布着的特征是信息最富集的特征,往往比局部少数点携带的特征成倍的有效。而稀疏特征,正是从稠密缠绕区解离出来的。
3、为什么引入Relu?
采用sigmoid等函数,反向传播求误差梯度时,求导计算量很大,而Relu求导非常容易。
对于深层网络,sigmoid函数反向传播时,很容易就会出现梯度消失的情况(在sigmoid接近饱和区时,变换太缓慢,导数趋于0),从而无法完成深层网络的训练。
Relu会使一部分神经元的输出为0,这样就造成了网络的稀疏性,并且减少了参数的相互依存关系,缓解了过拟合问题的发生(以及一些人的生物解释balabala)。
4、过分的强制稀疏处理,会减少模型的有效容量。即特征屏蔽太多,导致模型无法学习到有效特征。论文中对稀疏性的引入度做了实验,理想稀疏性(强制置0)比率是70%~85%。超过85%,网络就容量就成了问题,导致错误率极高。ReLu只有负值才会被稀疏掉,即引入的稀疏性是可以训练调节的,是动态变化的。只要进行梯度训练,网络可以向误差减少的方向,自动调控稀疏比率,保证激活链上存在着合理数量的非零值。
5、ReLu的使用,使得网络可以自行引入稀疏性。这一做法,等效于无监督学习的预训练。论文中给出的数据显示,没做预训练情况下,ReLu激活网络遥遥领先其它激活函数。
Effect of unsupervised pre-training
6、ReLu缩小了非监督学习和监督学习之间的差距,这种深度稀疏矫正网络不仅有利于分类问题而且可能对文本挖掘工具有帮助。
传统神经网络中最常用的两个激活函数,Sigmoid系(Logistic-Sigmoid、Tanh-Sigmoid)
Rectifier and softplus激活函数:
Softplus函数是Logistic-Sigmoid函数原函数, Softplus(x)=log(1+e x ) ,Softplus可以看作是强制非负校正函数max(0,x) 平滑版本。经验规则的初始化W之后,传统的Sigmoid系函数同时近乎有一半的神经元被激活,这不符合神经科学的研究,而且会给深度网络训练带来巨大问题。校正函数max(0,x) 成了近似符合该模型的诠释。
2、稀疏性的优点
原始数据(以自然数据为主)中通常缠绕着高度密集的特征,从原始数据中分离出关键特征数据。
有效的可变表示,不同的输入可能包含着大小不同关键特征,使用大小可变的数据结构去做容器,则更加灵活。
线性可分性,稀疏特征有更大可能线性可分,或者对非线性映射机制有更小的依赖。
稠密分布但是稀疏,稠密缠绕分布着的特征是信息最富集的特征,往往比局部少数点携带的特征成倍的有效。而稀疏特征,正是从稠密缠绕区解离出来的。
3、为什么引入Relu?
采用sigmoid等函数,反向传播求误差梯度时,求导计算量很大,而Relu求导非常容易。
对于深层网络,sigmoid函数反向传播时,很容易就会出现梯度消失的情况(在sigmoid接近饱和区时,变换太缓慢,导数趋于0),从而无法完成深层网络的训练。
Relu会使一部分神经元的输出为0,这样就造成了网络的稀疏性,并且减少了参数的相互依存关系,缓解了过拟合问题的发生(以及一些人的生物解释balabala)。
4、过分的强制稀疏处理,会减少模型的有效容量。即特征屏蔽太多,导致模型无法学习到有效特征。论文中对稀疏性的引入度做了实验,理想稀疏性(强制置0)比率是70%~85%。超过85%,网络就容量就成了问题,导致错误率极高。ReLu只有负值才会被稀疏掉,即引入的稀疏性是可以训练调节的,是动态变化的。只要进行梯度训练,网络可以向误差减少的方向,自动调控稀疏比率,保证激活链上存在着合理数量的非零值。
5、ReLu的使用,使得网络可以自行引入稀疏性。这一做法,等效于无监督学习的预训练。论文中给出的数据显示,没做预训练情况下,ReLu激活网络遥遥领先其它激活函数。
Effect of unsupervised pre-training
6、ReLu缩小了非监督学习和监督学习之间的差距,这种深度稀疏矫正网络不仅有利于分类问题而且可能对文本挖掘工具有帮助。
相关文章推荐
- Activiti 5.16用户手册
- leetcode 241: Different Ways to Add Parentheses
- php学习--1
- 导出数据到EXL表格中
- log4j文件
- echart横坐标太长导致坐标显示不完全
- php环境搭建教程(phpstrom+xampp)--如何修改apache端口号
- springmvc 上传文件
- JVM学习之-栈
- JVM学习之-栈
- java异常处理
- Spring学习(九)使用ioc注解方式配置bean
- Hyper-V在线扩展磁盘空间总结
- Android 手机 Google Play 商店“从服务器检索信息时出错 [RPC:S-7:AEC-7]”解决方法
- java变量的初始化
- 纯css3加载动画
- Jquery Mobile入门笔记
- 【Android 开源项目】下拉刷新Android-PullToRefresh介绍
- ios 时间戳转换成时间
- spring路径(个人笔记)