您的位置：首页 > 其它

线性模型

2017-08-10 11:27 204 查看

最近，准备将机器学习再重新捋一遍，为了加强自己的记忆，将看到的内容重新总结记录。学习材料为周志华《机器学习》。

机器学习：

1 线性模型

1 线性模型

给定一个含有
$d$
个属性描述的示例
$\mathbf{x}=\left ( x_{1}; x_{2};...; x_{d} \right )$
，线性回归试图学得一个通过属性的线性组合来进行预测的函数，即

$f(x)=w_{1}x_{1}+w_{2}x_{2}+...+w_{d}x_{d}+b$

一般用向量表示为：
$f(x)=\mathbf{w}^{T}\mathbf{x}+b$

$f(x)=\mathbf{w}^{T}\mathbf{x}+b$

$f(x)=\mathbf{w}^{T}\mathbf{x}+b$

$f(x)=\mathbf{w}^{T}\mathbf{x}+b$

$f(x)=\mathbf{w}^{T}\mathbf{x}+b$

1.1 线性回归

在写线性回归之前，先写一下我之前的一个疑问（蠢蠢的问题），以便和我一样有此疑惑的童鞋进行参考。

问题：回归和分类有什么区别？

答：回归输出的为实值，例如利用线性回归预测房价，预测考试分数等；而分类输出为离散值，例如利用分类估计房价是高还是低，考试分数及格还是不及格。

言归正传，介绍线性回归~~~~~~

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~我是分割线~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

目的：

给定数据集
$\mathbf{D}=\left \{{ (\mathit{\mathbf{x}}_{1},y_{1}),(\mathit{\mathbf{x}}_{2},y_{2}),...,(\mathit{\mathbf{x}}_{m},y_{m}) \right \}}$
，其中每个
$\mathbf{x}_{i}$
含有d个属性。线性回归（linear
regression）试图学得一个线性模型以尽可能准确地预测实值输出标记。即试图学得：
$f(\mathbf{x}_{i})=w^{T}\mathbf{x}_{i}+b$
，使得
$f(\mathbf{x}_{i})\approx y_{i}$

方法：

令
$X=\begin{pmatrix} x_{11}\; x_{12}\; ...\; x_{1d}\; 1 \\ x_{21}\; x_{22}\; ...\; x_{23}\; 1 \\ .\; .\; .\; ...\; .\;\\ x_{m1}\; x_{m2}\; ...\; x_{m3}\; 1 \end{pmatrix}$
=
$\begin{pmatrix} x_{1}^{T}\; 1 \\ x_{2}^{T}\; 1 \\ ...\; ...\; \\ x_{m}^{T}\; 1 \end{pmatrix}$
,
$\mathbf{y}=\left ( y_{1};y_{2};...;y_{m} \right )$
，则采用均方误差（回归任务中最常用的性能度量），
$E_{\mathbf{w^{*}}}=(\mathbf{y}-\mathbf{Xw^{*}})^{T}(\mathbf{y}-\mathbf{Xw^{*}})$
，此时的
$\mathbf{w^{*}}$
中包含了bias（偏差量），我们的目标是训练得到一个
$\mathbf{w^{*}}$
，使得均方误差最小。
利用数学上的知识，令

则可得到
$\mathbf{w^{*}}$
的最优闭式解。此解的情况相对比较复杂，我们做一下简单的讨论:
1）当
$\mathbf{X}^{T}\mathbf{X}$
为满秩矩阵（full-rank matrix）或正定矩阵（positive definite matrix）时，可得：
$\mathbf{w}^{*}=(\mathbf{X}^{T}\mathbf{X})^{-1}\mathbf{X}^{T}\mathbf{y}$
,则最终得到的线性模型为
$f(\mathbf{x_{i}}^{*})=\mathbf{x_{i}}^{*}^{T}(\mathbf{X}^{T}\mathbf{X})^{-1}\mathbf{X}^{T}\mathbf{y}$
，其中
$\mathbf{x_{i}}^{*}=(\mathbf{x}_{i};1)$
。
2）当
$\mathbf{X}^{T}\mathbf{X}$
不满足条件1）时，例如在许多任务中会遇到大量的变量，其数目甚至超过样例数，导致
$\mathbf{X}$
的列数显然多于行数，
$\mathbf{X}^{T}\mathbf{X}$
显然不满秩，此时可解出多了
$\mathbf{w^{*}}$
，而选择哪一个解，将由学习算法的归纳偏好决定，常见的做法是引入正则化（regularization）项。

变形：

线性模型虽然简单，但有着丰富的变形。当我们希望预测值逼近真实标记
$y$
时，则有线性回归模型。为便于观察，我们把线性回归模型简写为：

$y=\mathbf{w}^{T}\mathbf{x}+b$

那我们也可以令预测值逼近真实标记的衍生物。例如，我们令输出的预测值逼近
$lny$
，则有对数线性回归（log-linear
regression），即：

$lny=\mathbf{w}^{T}\mathbf{x}+b$
(1.1)
他实际上是让
$e^{\mathbf{w}^{T}\mathbf{x}+b}$
逼近
$y$
，虽然式(1.1)在形式是线性的，但实际上已是在求取输入空间到输出空间的非线性映射了。
更一般的，考虑单调可微函数
$g(.)$
，令：

$y=g^{-1}(\mathbf{w}^{T}\mathbf{x}+b)$

这样的模型为广义线性模型（generalized linear model），函数
$g(.)$
成为联系函数（link
function）。

$\mathbf{w}^{*}=(\mathbf{X}^{T}\mathbf{X})^{-1}\mathbf{X}^{T}\mathbf{y}$

$y=\mathbf{w}^{T}\mathbf{x}+b$

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 机器学习线性回归

相关文章推荐

新的分享

章节导航

线性模型

1 线性模型

1.1线性回归

1.2对数几率回归

1.3线性判别分析

1.4多分类学习

1.5类别不平衡问题

2 决策树

3 神经网络

4 支持向量机

5 贝叶斯分类器

6 集成学习

7 聚类

目的：

方法：

变形：