逻辑回归公式推导
2018-03-23 16:19
1181 查看
文章参考周志华《机器学习》
机器学习离不开模型,算法,激活函数。
逻辑回归使用线性回归的的预测结果去逼近对数几率,所以使用的模型和线性回归一样。逻辑回归使用的激活函数为S型函数中的对数几率函数,公式以及曲线如下:
y=11+e−zy=11+e−z
![](https://img-blog.csdn.net/20180322174620364?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L1h5engwNDM4NzQ=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)
而逻辑回归从输入的特征值计算出输出值的更新公式为:
h(θ)=11+e−(θTx+b)h(θ)=11+e−(θTx+b)
其中,h(θ)h(θ)为模型输出的值,yy为实际值。逻辑回归是线性回归引入对数几率,可有上式得出:
lnh(θ)1−h(θ)=θTx+blnh(θ)1−h(θ)=θTx+b
由上式可以看出对数以及几率的概念。同时,逻辑回归就是在线性回归的基础上引入了这两个概念产生的。此时,假定输出的预测值h(θ)h(θ)为0,在二分类任务中,上式可写成概率的形式:
lnp(h(θ)=0)p(h(θ)=1)=θTx+blnp(h(θ)=0)p(h(θ)=1)=θTx+b
由概率公式可得,也可以有更新公式易知:
p(h(θ)=0)=eθTx+b1+eθTx+bp(h(θ)=0)=eθTx+b1+eθTx+b p(h(θ)=1)=11+eθTx+bp(h(θ)=1)=11+eθTx+b
此时,要使在这个数据集中(可以看做部分的采样)使得如此采样出现的概率最大,则可以通过极大似然估计来估计权重ωω以及bb,先写出概率分布的函数:
P(h|θ;ω,b)=(11+eθTx+b)1−y(eθTx+b1+eθTx+b)yP(h|θ;ω,b)=(11+eθTx+b)1−y(eθTx+b1+eθTx+b)y
由于样本相对独立,可写出上式的似然函数:
L(y|θ;ω,b)=∏i=1m(11+eθTx+b)1−y(eθTx+b1+eθTx+b)yL(y|θ;ω,b)=∏i=1m(11+eθTx+b)1−y(eθTx+b1+eθTx+b)y
对似然函数求对数:
LogL(y|θ;ω,b)=∑i=1mln(11+eθTx+b)1−y(eθTx+b1+eθTx+b)yLogL(y|θ;ω,b)=∑i=1mln(11+eθTx+b)1−y(eθTx+b1+eθTx+b)y =∑i=1m(1−y)ln(11+eθTx+b)+yln(eθTx+b1+eθTx+b)=∑i=1m(1−y)ln(11+eθTx+b)+yln(eθTx+b1+eθTx+b)=∑i=1mln(11+eθTx+b)+y(ln(eθTx+b1+eθTx+b)−ln(11+eθTx+b))=∑i=1mln(11+eθTx+b)+y(ln(eθTx+b1+eθTx+b)−ln(11+eθTx+b))=∑i=1m(−ln(1+eθTx+b)+y(θTx+b))=∑i=1m(−ln(1+eθTx+b)+y(θTx+b))
需求上式的最大值,即求下式的最小值,即逻辑回归的代价函数如下:
∑i=1mln(1+eθTx+b)−y(θTx+b)∑i=1mln(1+eθTx+b)−y(θTx+b)
之后使用梯度下降法求最小值,上式求导后梯度为:
(11+eθTx+b)x−yx=(h(θ)−y)x(11+eθTx+b)x−yx=(h(θ)−y)x
再根据梯度下降更新权重即可。
机器学习离不开模型,算法,激活函数。
逻辑回归使用线性回归的的预测结果去逼近对数几率,所以使用的模型和线性回归一样。逻辑回归使用的激活函数为S型函数中的对数几率函数,公式以及曲线如下:
y=11+e−zy=11+e−z
而逻辑回归从输入的特征值计算出输出值的更新公式为:
h(θ)=11+e−(θTx+b)h(θ)=11+e−(θTx+b)
其中,h(θ)h(θ)为模型输出的值,yy为实际值。逻辑回归是线性回归引入对数几率,可有上式得出:
lnh(θ)1−h(θ)=θTx+blnh(θ)1−h(θ)=θTx+b
由上式可以看出对数以及几率的概念。同时,逻辑回归就是在线性回归的基础上引入了这两个概念产生的。此时,假定输出的预测值h(θ)h(θ)为0,在二分类任务中,上式可写成概率的形式:
lnp(h(θ)=0)p(h(θ)=1)=θTx+blnp(h(θ)=0)p(h(θ)=1)=θTx+b
由概率公式可得,也可以有更新公式易知:
p(h(θ)=0)=eθTx+b1+eθTx+bp(h(θ)=0)=eθTx+b1+eθTx+b p(h(θ)=1)=11+eθTx+bp(h(θ)=1)=11+eθTx+b
此时,要使在这个数据集中(可以看做部分的采样)使得如此采样出现的概率最大,则可以通过极大似然估计来估计权重ωω以及bb,先写出概率分布的函数:
P(h|θ;ω,b)=(11+eθTx+b)1−y(eθTx+b1+eθTx+b)yP(h|θ;ω,b)=(11+eθTx+b)1−y(eθTx+b1+eθTx+b)y
由于样本相对独立,可写出上式的似然函数:
L(y|θ;ω,b)=∏i=1m(11+eθTx+b)1−y(eθTx+b1+eθTx+b)yL(y|θ;ω,b)=∏i=1m(11+eθTx+b)1−y(eθTx+b1+eθTx+b)y
对似然函数求对数:
LogL(y|θ;ω,b)=∑i=1mln(11+eθTx+b)1−y(eθTx+b1+eθTx+b)yLogL(y|θ;ω,b)=∑i=1mln(11+eθTx+b)1−y(eθTx+b1+eθTx+b)y =∑i=1m(1−y)ln(11+eθTx+b)+yln(eθTx+b1+eθTx+b)=∑i=1m(1−y)ln(11+eθTx+b)+yln(eθTx+b1+eθTx+b)=∑i=1mln(11+eθTx+b)+y(ln(eθTx+b1+eθTx+b)−ln(11+eθTx+b))=∑i=1mln(11+eθTx+b)+y(ln(eθTx+b1+eθTx+b)−ln(11+eθTx+b))=∑i=1m(−ln(1+eθTx+b)+y(θTx+b))=∑i=1m(−ln(1+eθTx+b)+y(θTx+b))
需求上式的最大值,即求下式的最小值,即逻辑回归的代价函数如下:
∑i=1mln(1+eθTx+b)−y(θTx+b)∑i=1mln(1+eθTx+b)−y(θTx+b)
之后使用梯度下降法求最小值,上式求导后梯度为:
(11+eθTx+b)x−yx=(h(θ)−y)x(11+eθTx+b)x−yx=(h(θ)−y)x
再根据梯度下降更新权重即可。
相关文章推荐
- 逻辑回归模型及LBFGS的Sherman Morrison(SM) 公式推导
- 逻辑回归LR推导(sigmoid,损失函数,梯度,参数更新公式)
- 逻辑斯蒂回归(LR)原理详解及公式推导
- 逻辑回归-参数迭代公式推导
- Logistic Regression(逻辑回归)原理及公式推导
- 逻辑回归公式推导过程
- 双层神经网络与逻辑回归正反向传播数学公式简要推导
- 逻辑回归迭代公式推导
- [小白式机器学习(一)] logistic regression(LR)对数几率回归 / 逻辑回归 公式推导
- logistic逻辑回归公式推导及R语言实现
- 逻辑斯蒂回归公式推导
- [机器学习]逻辑回归公式推导及其梯度下降法的Python实现
- 十七、逻辑回归公式的数学推导
- [小白式机器学习(一)] logistic regression(LR)对数几率回归 / 逻辑回归 公式推导
- 机器学习-逻辑回归-参数迭代公式推导
- 吴恩达老师深度学习视频课笔记:逻辑回归公式推导及C++实现
- Logistic Regression(逻辑回归)原理及公式推导
- 广义线性模型和逻辑回归的公式推导
- 逻辑回归梯度下降公式详细推导
- Logistic Regression(逻辑回归)原理及公式推导