您的位置：首页 > 其它

监督学习之线性回归

2016-08-06 16:35 260 查看

一、监督学习

让我们首先谈一些监督学习问题的例子。假定我们有一个数据集，数据集中给出了来自俄勒冈波特兰的47所房子的居住面积(living areas)和价格(price)：

我们可以将这些数据标识于图表上：

给定这样的数据，我们如何学习基于居住面积的大小的函数，来预测波兰特其它房子的价格。

为了建立以后使用的符号，我们使用

表示“输入”变量（这个例子中的居住面积），也被称作输入特征，

表示我们尽力预测的“输出”或者目标变量（价格）。一组

被称作一个训练例子，我们将要用来学习的数据集——m个训练例子

——被称作一个训练集。注意符号中的上标

仅仅是一个指向训练集的索引，和指数没有关系。我们使用表示输入值的空间，表示输出值的空间。在这个例子中，

。

为了稍微更加正式的描述监督学习问题，我们的目标是在给定一组训练集的情况下，学习一个函数

，

是一个对相对应值的好的预测器。由于历史原因，这个函数

被叫做一个假设。可以形象地看出，过程就像这样：

当我们正努力预测的目标变量是连续时，正如在我们房子的例子中，我们成这种学习问题为一个回归问题。当

只能取少量的离散值时（比如，如果给定居住面积，我们想预测一个住处时一个house还是一个apartment），我们把它称作一个分类问题。

第一部分线性回归

为了使我们的房子案例更有趣，让我们考虑一个更加丰富的数据集，在这个数据集里我们还知道每个房子里的卧室的数量：

这里，

是

里的二维向量。比如说，

是训练集中第

个房子的居住面积，

是卧室的数量。（一般来说，当设计一个学习问题时，决定选择什么特征取决于你，所以如果你在波兰特收集房子数据，你也可能决定包含其他的特征，比如是否每个房子有一个壁炉，浴室的数量等等。我们之后将会关于特征选择谈到更多，但是现在让我们假定特征已经给定。）

为了进行监督学习，我们必须决定我们将如何在电脑里表示函数/假设

。作为一个初始的选择，我们决定来使用

的线性函数来近似

：

这里，

是参数（也成为权重），用来参数化

到

映射的线性函数空间。当不存在混淆的风险时，我们也会去掉

中的下标

，把它更简单的写作

。为了简化我们的符号，我们也引入

的惯例（这个是截距项），以致

在上式的右端项我们把

和

都当作向量，

是输入变量的个数（不算

）。

现在，给定一个训练集，我们如何选择或者学习参数

？一个合理的方法看起来是使得

接近

，至少对于我们训练的例子是成立的。为了使其形式化，我们将会定义一个函数，用来测量对于每组

值，

和相对应

的值有多接近。我们定义代价函数：

如果你之前看过线性回归，你可以认出这是熟悉的最小二乘代价函数，它引出了普通最小二乘回归模型。无论你之前是否看过线性回归，让我们继续，我们最终会说明这是一个更宽广算法家族的一种特殊情况。

1 LMS（ Least mean square，最小均方）算法

我们想选择

以便最小化

。为此，我们使用一个以对

进行某些初始猜测作为开始的搜索算法，然后反复改变

来使

越来越小，直到希望上收敛到一个使

最小的

值。明确地，让我们考虑梯度下降算法，它以某些初始的

值作为开始，反复地执行更新：

（这个更新是对所有

的值同时执行的。）这里，

被称作学习率。反复地以

下降最快的方向走一步是一个非常自然的算法。

为了执行这个算法，我们必须算出右边的偏导数项是什么。让我们首先计算我们只有一个训练样本

的情况，以致我们可以忽略

定义中的和。我们有：

对于一个训练样本（的情况），给出更新规则：

这条规则被称作LMS更新规则（LMS代表“最小均方”），也被叫做widrow-hoff学习规则。这条规则有一些看起来很自然和直观的特征。比如，更新的量级和误差项

成比例；从而，比如说，如果我们正好遇到一个预测值几乎匹配

实际值的训练样本，然后我们发现几乎不需要改变参数；相反，如果我们的预测值

有很大的误差（也就是说和

相差较大），参数需要做较大的改变。

我们已经得到了当只有一个训练样本的LMS规则。对于多于一个训练样本的训练集，有两种方式可以修改这个方法。第一种方法是用以下的算法替换它：

重复直到收敛{

}

读者可以很简单证明上面更新规则中的求和量就是

（对于

的初始定义）。所以，这仅仅是对原始的代价函数用了梯度下降。这个方法在每一步都会看整个训练集中的每个样本，被称作批梯度下降。注意到，尽管梯度下降一般对局部最小值很敏感，但我们在这里关于线性回归提出的最优化问题只有一个全局的最优，没有其他局部最优；因此梯度下降总是收敛（假定学习率

不是太大）至全局最小值。实际上，

是一个凸二次函数。这里有一个最小化某二次函数的梯度下降的例子。

上面显示的椭圆形是一个二次函数的轮廓。梯度下降的轨迹也被显示了，初始值（48，30）。图形中x（叉号，被直线连接的）标记着梯度下降经过的连续的

值。

为了学习预测房子价格的关于居住面积的函数，当我们对原来的数据集运行批梯度下降来寻求恰当的

值时，我们得到

。当我们画出

(面积)的函数

，同时画出训练数据，我们得到下面的图形：

如果卧室的数量也被包含成为一个输入特征，我们得到

。

上面的结果是通过块梯度下降得到的。还有一种可以替代块梯度下降也工作不错的的算法。考虑以下的算法：

Loop{

For i=1 to m,{

， (for every j)

}

}

在这个算法中，我们反复地遍历训练集，每次我们针对一个训练样本。我们根据只基于单个训练例子的误差的梯度来更新参数。这个算法被称作随机梯度下降（也称作增量梯度下降）。批梯度下降在走一步之前必须扫描整个的训练集——如果m值太大的话，就是代价很高的操作——然而随机梯度下降可以立即前进，然后通过看每一个例子继续前进。经常，随机梯度下降得到接近最小值的远比批梯度下降更快。（注意到尽管它可能永远收敛不到最小值，参数

持续在的

最小值附近震荡，但是在实际中，大多数接近最小值的值是对真实最小值的相当好的近似）。由于这个原因，特别是当训练集较大时，随机梯度下降胜过批梯度下降。

2
正规方程
梯度下降给了一种最小化