线性回归的损失函数为什么使用最小化均方误差
2017-11-21 16:45
211 查看
最小二乘问题的定义:
没有约束条件,目标函数是若干二次项的和,每一项的形式如aTix−biaiTx−bi,具体形式如下:
minimizef(x)=∑i=1k(aTix−bi)2minimizef(x)=∑i=1k(aiTx−bi)2
其中,A∈ℜk∗n,aTiA∈ℜk∗n,aiT是A的行向量,向量x∈ℜnx∈ℜn是优化变量
最优解是x=(ATA)−1ATBx=(ATA)−1ATB (求解过程见上一篇博文)
线性回归的损失函数costfunction
在线性回归问题中,假设模型为h(θ)=xTθ+bh(θ)=xTθ+b,其中xx为输入,b为偏置项;
损失函数的由来
假设模型h(θ)h(θ)与实际值yy误差ϵϵ服从正态分布(根据中心极限定理,多种未考虑到的其他因素的和符合正太分布),即:
h(θ)−y=ϵ∈N(0,σ2)h(θ)−y=ϵ∈N(0,σ2)
则根据输入样本xixi可以计算出误差ϵiϵi的概率为:
p(ϵi)=12π‾‾‾√σexp−ϵ2i2σ2p(ϵi)=12πσexp−ϵi22σ2
则可以得出似然公式:
l(θ)=∏i=1mp(ϵi)l(θ)=∏i=1mp(ϵi)
其中m为样本总数。则有以上公式可以写出log最大似然,即对l(θ)l(θ)整体取log,则:
L(θ)=logl(θ)=log(∏i=1mp(ϵi))=mlog12π‾‾‾√σ+∑im(−ϵ2i2σ2)L(θ)=logl(θ)=log(∏i=1mp(ϵi))=mlog12πσ+∑im(−ϵi22σ2)
则最大化似然公式L(θ)L(θ)相当于最小化f(θ)=12∑miϵ2i=12∑mi(xTiθ−yi)2f(θ)=12∑imϵi2=12∑im(xiTθ−yi)2,则变换为最小二乘问题。
没有约束条件,目标函数是若干二次项的和,每一项的形式如aTix−biaiTx−bi,具体形式如下:
minimizef(x)=∑i=1k(aTix−bi)2minimizef(x)=∑i=1k(aiTx−bi)2
其中,A∈ℜk∗n,aTiA∈ℜk∗n,aiT是A的行向量,向量x∈ℜnx∈ℜn是优化变量
最优解是x=(ATA)−1ATBx=(ATA)−1ATB (求解过程见上一篇博文)
线性回归的损失函数costfunction
在线性回归问题中,假设模型为h(θ)=xTθ+bh(θ)=xTθ+b,其中xx为输入,b为偏置项;
损失函数的由来
假设模型h(θ)h(θ)与实际值yy误差ϵϵ服从正态分布(根据中心极限定理,多种未考虑到的其他因素的和符合正太分布),即:
h(θ)−y=ϵ∈N(0,σ2)h(θ)−y=ϵ∈N(0,σ2)
则根据输入样本xixi可以计算出误差ϵiϵi的概率为:
p(ϵi)=12π‾‾‾√σexp−ϵ2i2σ2p(ϵi)=12πσexp−ϵi22σ2
则可以得出似然公式:
l(θ)=∏i=1mp(ϵi)l(θ)=∏i=1mp(ϵi)
其中m为样本总数。则有以上公式可以写出log最大似然,即对l(θ)l(θ)整体取log,则:
L(θ)=logl(θ)=log(∏i=1mp(ϵi))=mlog12π‾‾‾√σ+∑im(−ϵ2i2σ2)L(θ)=logl(θ)=log(∏i=1mp(ϵi))=mlog12πσ+∑im(−ϵi22σ2)
则最大化似然公式L(θ)L(θ)相当于最小化f(θ)=12∑miϵ2i=12∑mi(xTiθ−yi)2f(θ)=12∑imϵi2=12∑im(xiTθ−yi)2,则变换为最小二乘问题。
相关文章推荐
- 线性回归为什么选择最小二乘
- 使用Eviews做简单线性回归
- 机器学习笔记(2):线性回归-使用gluon
- 多元线性回归方程建模:使用岭回归与lasso算法选择变量
- 线性回归、逻辑回归、损失函数
- 分别使用普通线性回归、岭回归、lasso回归预测鲍鱼年龄
- [每日问答]逻辑回归为什么使用Sigmod作为激活函数?
- 线性回归介绍之三——线性回归的使用条件
- 逻辑回归-为什么使用逻辑函数
- 使用最大似然法来求解线性模型(2)-为什么是最大化似然函数?
- 决策树、逻辑回归、线性回归使用时注意事项以及模型过拟合策略
- 线性回归、逻辑回归、损失函数
- CTR打分模型中为什么使用逻辑回归
- LR(逻辑回归) 为什么使用sigmoid函数
- 为什么在神经网络中要使用交叉熵而不是均方差作为损失函数
- 线性回归的损失函数与逻辑回归的损失函数
- 线性回归和逻辑回归的损失函数
- 线性回归为毛使用梯度下降而不是导数等于0
- 逻辑回归为什么使用对数损失函数
- 记录xgboost python 线性回归使用方法