您的位置：首页 > 其它

回归-用极大似然估计来解释最小二乘

2015-08-19 16:30 218 查看

导语

这是线性回归的第一篇，后面还有多篇，包括普通最小二乘、梯度下降、牛顿法等知识，本篇主要是阐述最小二乘法损失函数与高斯分布的联系，虽然逻辑回归也是线性回归的一个变种，但它主要是0-1分布，不在本篇讨论之列。

损失函数

任何一本概率论书在讲线性回归时都会说到一个方法，叫做最小二乘法，这里先给出线性回归的定义式：

y=θT∗X

这里是一种表达习惯，X与θ都是列向量

给定一系列样本与观测值，现在来拟合参数θ，那么什么样的参数才算是好的呢？总该有一个判断标准吧，因此，华丽丽的损失函数上场：

J(θ)=12∑i=1m(hθ(x(i))−y(i))2

这个公式就是大名顶顶的最小二乘建立的目标公式，hθ(x(i))表示的样本x(i)的理论值，y(i)表示的是观测值。这个函数非常便于理解，就是总误差平方和的12，前面的系数只是为了后面计算方便加上的，不会对整体产生影响。

我们假设观测值与理论值是有误差的，那么我们可以定义如下公式，其中ε(i)表示样本x(i)的误差。

y(i)=θT∗x(i)+ε(i)

到这里，损失函数就算是定义完成了，也许有人问了，为啥是“理论值-观测值”的平方，绝对值不行吗？4次方不行吗?ok，这个问题下面解释。

正态分布与极大似然估计

关于正态分布本身，这里不做过多解释，这里假设读者对于正态分布已经有一定的了解，正态分布是非常常见的一种分布，这里假设误差是符合高斯分布的，且期望为0，原理可参见中心极限定理。误差既然符合高斯分布，那么我们可写出它的概率公式：

p(ε(i))=12π−−√σexp(−ε(i)22σ2)

由上一节的误差公式可看出，ε(i)=y(i)−θTx(i),所以

p(y(i))=p(θTx(i)+ε(i))=12π−−√σexp(−(y(i)−θTx(i))22σ2)

现在总共有m个样本，那么根据极大似然估计，列出似然函数

L(θ)=∏i=1mp(y(i))=∏i=1m12π−−√σexp(−(y(i)−θTx(i))22σ2)

对似然函数求对数，得:

logL(θ)=∑i=1m12π−−√σexp(−(y(i)−θTx(i))22σ2)=mlog˙12π−−√σ−1σ2∗12∑i=1m(y(i)−θTx(i))2

推到这里，想要让似然函数取得最大值，则损失函数必须要取得最小值，最小二乘法得到解释。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 数据分析

相关文章推荐

新的分享

章节导航