您的位置：首页 > 其它

正规方程 Normal Equation

2017-08-03 16:38 162 查看

正规方程 Normal Equation

前几篇博客介绍了一些梯度下降的有用技巧，特征缩放（详见http://blog.csdn.net/u012328159/article/details/51030366）和学习率（详见http://blog.csdn.net/u012328159/article/details/51030961）。在线性回归中。为了求得參数
$ \theta$
的最优值，一般採用梯度下降和本文将要介绍的正规方程（normal
equation）。

相比較梯度下降採用多次迭代逼近的方式。normal equation採用矩阵运算能够直接求解出參数
$ \theta$
。先介绍下什么是normal equation，如果一个数据集X有m个样本，n个特征。则如果函数为：
$ H_{\theta }(X) = \theta _{0} + \theta _{1}x_{1} + \theta _{2}x_{2} +... + \theta _{n}x_{n}$
。数据集X的特征向量表示为：

$x^{(i)}$
表示第i个训练样本，
$x^{(i)}_{j}$
表示第i个训练样本的第j个特征。之所以在X中加了第一列全为1，是为了让
$\theta _{0}*1 = \theta _{0}$

若希望如果函数可以拟合Y，则
$H_{\theta }(X) = Y$
。又由于
$H_{\theta}(X) = X * \theta = Y$
，所以可以通过矩阵运算求出參数
$\theta$
。
熟悉线性代数的同学应该知道怎么求出參数
$\theta$
。可是前提是矩阵X存在逆矩阵
$X^{-1}$
。

但仅仅有方阵才有可能存在逆矩阵（不熟悉定理的同学建议去补补线性代数），因此能够通过左乘
$X^{T}$
使等式变成
$ X^{T}\cdot X\cdot \theta = X^{T}\cdot Y$
，因此
$\theta =(X ^{T}X)^{-1}X^{T}Y$
,有同学可能会有疑问
$ (X ^{T}X)^{-1}$
不一定存在啊，确实是，可是
$ (X ^{T}X)^{-1}$
极少不存在，后面会介绍
$(X ^{T}X)^{-1}$
不存在的处理方法，先别着急。如今你仅仅须要明确为什么
$\theta =(X ^{T}X)^{-1}X^{T}Y$
就能够了。而且记住。

介绍完normal equation求解參数
$\theta$
，我们已经知道了两种求解參数
$\theta$
的方法。normal
equation和梯度下降。如今来对照下这两种方法的优缺点以及什么场景选择什么方法。

详细见下表吧：

回到上面说的
$(X ^{T}X)^{-1}$
不一定存在，这样的情况是极少存在的。假设
$ (X ^{T}X)^{-1}$
不可逆了，一般要考虑一下两者情况：
（1）移除冗余特征。一些特征存在线性依赖。
（2）特征太多时，要删除一些特征。比如（m<n)，对于小样本数据使用正则化。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航