您的位置：首页 > 其它

机器学习-线性回归优化模型的由来

2015-01-12 13:01 295 查看

线性回归模型中误差函数为平方和的由来。

预测结果
$\theta ^{T}x^{(i)}$
和真实结果
$y^{(i)}$
满足以下式子：

$y^{i}=\theta ^{T}x^{i}+\varepsilon ^{i}$

一般来讲，其中
$\varepsilon ^{i}$
服从高斯分布，误差满足平均值为0的高斯分布，即正态分布。

$p(\varepsilon ^{(i)})=\frac{1}{\sqrt{2\pi }\sigma }exp(-\frac{(\varepsilon ^{(i)}-0)}{2\sigma ^{2}})$

误差发生的概率即x和y的条件概率，所以

$p(y^{i}|x^{i};\theta )=\frac{1}{\sqrt{2\pi }\sigma }exp(-\frac{(y^{(i)}-\theta ^{T}x^{i})}{2\sigma ^{2}})$

即一个样本的结果概率，我们想要的结果是能够在全部样本上的预测最准，也就是概率面积最大，所以想到最大似然估计。

此处补充最大似然估计定义：

设总体样本X的分布密度形式
$f(x;\theta )$
已知，
$\theta$
未知（若X为离散变量，则概率密度
$f(x;\theta )$
表示为
$p\left \{ X=x \right \}$
），其联合概率密度为

$\prod_{i=1}^{m}f(x;\theta )$
离散变量时为
$\prod_{i=1}^{m}p(X=x_{i} )$

$L(\theta )=L(x_{1},x_{2},...x_{m};\theta )=\prod_{i=1}^{m}f(x_{i};\theta )$

一般对
$L(\theta )$

取对数，在计算使其最大对应的
$\theta$
。
回到线性回归模型，最大似然估计，就是

$L(\theta )=\prod_{i=1}^{m}p(y^{i}|x^{i};\theta )$

$l(\theta )=log(L(\theta ))$

$=log\prod_{i=1}^{m}\frac{1}{\sqrt{2\pi }\sigma }exp(-\frac{(y^{(i)}-\theta ^{T}x^{i})^{2}}{2\sigma ^{2}})$

$=\sum_{i=1}^{m}log\frac{1}{\sqrt{2\pi }\sigma }exp(-\frac{(y^{(i)}-\theta ^{T}x^{i})^{2}}{2\sigma ^{2}})$

$=mlog\frac{1}{\sqrt{2\pi }\sigma }-\frac{1}{\sigma ^{2}}\cdot \frac{1}{2}\sum_{i=1}^{m}{(y^{(i)}-\theta ^{T}x^{i})^{2}}$

因为
$m$
和
$\sigma$
均为定值，所以最大化
$l(\theta )$
，就是最小化

$\frac{1}{2}\sum_{i=1}^{m}(y^{(i)}-\theta ^{T}x^{i})^{2}$

这个式子就是线性回归中我们要最小化的
$J(\theta )$
，即最小二乘法。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航