logistic regression研究,对于之前自我提问Q4理论证明和更新理解
2016-05-18 16:01
369 查看
昨天主要就是解决了logistic regression相关的问题,问题起因是我最开始不知道为什么我在程序里把1/(1+exp(-z))改成1/(1+exp(z))会出错,然后在没有理论支持的情况下把最后批量梯度下降时候的梯度添加一个负号,这个时候能收敛而且有结果,我当时鬼使神差地误认为1/(1+exp(-z))有特殊的含义,只能代表1的概率,1/(1+exp(z))只能代表0的概率,于是基于此开始推理,推出来另外一个形式的迭代公式,而这个迭代公式并不是简单的添加一个负号(当然不是啦,因为我已经假定了1/(1+exp(z))表示0的概率,这个的极大似然函数发生了变化)
当然这样也能算出来一组θ,但这个时候得到的prob就是0的概率,基于此我产生了一系列的问题不能自圆其说,因为假定不一样了,所以和博士讨论了一下,最后用推导和程序都证明了,logistic函数h(θ)可以随便令1/(1+exp(-z))是1的概率或者1/(1+exp(z))是1的概率,推导如下,蓝色字体博士推导的,推导的通用迭代表达式,我黑色字体推导的具体表达式
程序算出来也毫无问题,只是θ反号而已,所以回头来看就是当时我在尝试的时候对程序产生的结果理解错误,导致一系列猜想和问题,只不过这个过程下来,我对logistic的推导过程更加娴熟了,也从理论上证明了我上一次写的logistic回归问题自我答疑中的Q4,但是Q4也有点问题,h(θ)不一定非要是1的概率,也可以强行令h(θ)是0的概率,到时候迭代公式会相应的变化!以上!logistic还剩下的问题就是怎么去理解随机梯度下降,理解步长过大的震荡现象!
关于步长过大,博士有个理解,始终是按照极值点方向走,步长太大有可能就过了极值点,有可能损失函数变大了,也有可能损失函数变小,如果没有走过,那么函数值肯定是变小,所以有2/3的概率都会变小,所以步长太大,虽然要震荡但是更大的概率是使得函数值变小,所以函数值会逐步收敛!
当然这样也能算出来一组θ,但这个时候得到的prob就是0的概率,基于此我产生了一系列的问题不能自圆其说,因为假定不一样了,所以和博士讨论了一下,最后用推导和程序都证明了,logistic函数h(θ)可以随便令1/(1+exp(-z))是1的概率或者1/(1+exp(z))是1的概率,推导如下,蓝色字体博士推导的,推导的通用迭代表达式,我黑色字体推导的具体表达式
程序算出来也毫无问题,只是θ反号而已,所以回头来看就是当时我在尝试的时候对程序产生的结果理解错误,导致一系列猜想和问题,只不过这个过程下来,我对logistic的推导过程更加娴熟了,也从理论上证明了我上一次写的logistic回归问题自我答疑中的Q4,但是Q4也有点问题,h(θ)不一定非要是1的概率,也可以强行令h(θ)是0的概率,到时候迭代公式会相应的变化!以上!logistic还剩下的问题就是怎么去理解随机梯度下降,理解步长过大的震荡现象!
关于步长过大,博士有个理解,始终是按照极值点方向走,步长太大有可能就过了极值点,有可能损失函数变大了,也有可能损失函数变小,如果没有走过,那么函数值肯定是变小,所以有2/3的概率都会变小,所以步长太大,虽然要震荡但是更大的概率是使得函数值变小,所以函数值会逐步收敛!
相关文章推荐
- Centos7.0 下 jdk 安装
- 栈与递归
- 微信页面的代码|你一定没有看过这么神奇的代码
- jquery------隐式迭代
- jquery 获取其动态生成的元素的ID
- 测试angular中的service
- js判断手机是否安装了某个APP,如果安装了就打开,没安装就下载
- 测试angular中的controller
- JQuery实现点击缩略图查看大图效果
- 堆栈的实现(c语言)
- 星型模型&& 雪花模型
- EventBus学习笔记
- XCode环境变量及路径设置
- .NET Core 1.0 CentOS7 尝试(三、使用VSCode创建一个Web应用)
- 常用正则表达式
- 【T_SQL】 基础 事务
- 怎样做邮件主题行才能使品牌邮件脱颖而出?
- java微信开发第二步 获取消息和回复消息
- 保存图片到本地目录和获取
- SQL Server 2012 序列号