您的位置:首页 > 其它

Machine Learning Reviews

2016-07-18 20:42 381 查看

Machine Learning Reviews

Machine Learning Reviews
1曲线拟合
11多项式回归

2概率论
21概率密度

22期望与协方差

23贝叶斯概率

24高斯分布

25贝叶斯观点下的曲线拟合问题

3模型选择

4决策论
41最小错误分类率

42最小期望损失

43拒绝选项

44推断和决策

45回归问题的损失函数

5 信息论
51相对熵和互信息

相关练习

机器学习基本问题的定义:

训练数据的样本包含输入向量以及对应的目标向量的应用叫做有监督学习( supervised learning )问题。数字识别就是这个问题的一个例子,它的目标是给每个输入向量分配到有限数量离散标签中的一个,被称为分类( classification )问题。如果要求的输出由一个或者多个连续变量组成,那么这个任务被称为回归( regression )。回归问题的一个例子是化学药品制造过程中产量的预测。在这个问题中,输入由反应物、温度、压力组成。

在其他的模式识别问题中,训练数据由一组输入向量 x 组成,没有任何对应的目标值。在 这 样 的 无 监 督 学 习 ( unsupervised learning ) 问 题 中, 目 标 可 能 是 发 现 数 据 中 相 似 样 本 的分组,这被称为聚类( clustering ),或者决定输入空间中数据的分布,这被称为密度估计( density estimation ),或者把数据从高维空间投影到二维或者三维空间,为了数据可视化( visualization )。

强化学习(reinforcement learning)技术关注的问题是在给定的条件下,找到合适的动作,使得奖励达到最大值。它不像监督学习一样给定最优输出用例,而是需要在一系列的实验和错误中发现。通常学习算法有一套和环境交互的状态和动作序列。大多数情况下当前的动作同时影响当前和所有后续的奖励。“探索”是指系统尝试新类型的动作,“利用”是指系统使用已知能产生较高奖励的动作。过分地集中于探索或者利用都会产生较差的结果。

1.1曲线拟合

1.11多项式回归

问题的定义:假设给定一个训练集,由N个观测值X组成,伴随着对应的目标值T

训练样本:X≡(x1,...,xN)T

预测值:T≡(t1,..,tN)T

目标:利⽤这个训练集预测对于输⼊变量的新值x̂ 的⽬标变量的值t̂

存在一个真实函数y=f(x),而现实中我们永远不可能获得足够的数据来估计出该函数,同时在样本生成过程中总是伴随着噪声干扰,因此对于一个给定的x̂ ,合适的t̂ 值具有不确定性,概率论提供了一个框架,⽤来以精确的数学的形式描述这种不确定性,决策论让我们能够根据合适的标准,利⽤这种概率的表⽰,进⾏最优的预测

简单的曲线拟合形式:

y(x,w)=w0+w1x+w2x2+...+wmxm=∑j=0mwjxj(1.1)

其中 mm 是这个多项式的阶数, axj 表示 x 的 j 次幂。系数 w0,...wm 整体记作向量 w 。 注意,尽管多项式函数 y(x,w) 是一个关于 x 的非线性函数,但它是关于系数 w 的线性函数。类似多项式函数的这种关于未知参数满⾜线性关系的函数有着重要的性质,被叫做线性模型

系数的值可以通过调整多项式函数拟合训练数据的⽅式确定,最⼩化误差函数

( error function)的⽅法实现。误差函数衡量了对于任意给定的w值,函数y(x,w)与训练数据的差别。例如平方和误差函数:

E(w)=12∑n=1N{y(xn,w)−tn}2(1.2)

通过选择 w 的值使得 E(w) 尽可能的小来解曲线拟合问题。因为误差函数是关于系数 w的二次函数,所以它的导数是关于系数的线性函数。因此我们可以得到最小化误差函数的唯一解析解,记作 w∗ 。最终的多项式函数由 y(x,w∗)给出。

构建测试集,计算误差,均方根误差(root mean square):

ERMS=2E(w∗)/N‾‾‾‾‾‾‾‾‾√(1.3)

测试集误差表示了我们对新的观测值 x预测的目标变量 t 的准确程度

对已⼀个给定的模型复杂度,当数据集的规模增加时,过拟合问题变得不那么严重。数据集规模越⼤,我们能够⽤来拟合数据的模型就越复杂(即越灵活)

⼀个粗略的启发是,数据点的数量不应该⼩于模型的可调节参数的数量的若⼲倍(⽐如5或10)。

寻找模型参数的最⼩平⽅⽅法代表了最⼤似然( maximum likelihood)的一种特殊情形,并且过拟合问题可以被理解为最⼤似然的⼀个通⽤属性。通过使⽤⼀种贝叶斯( Bayesian)⽅法,过拟合问题可以被避免。我们将会看到,从贝叶斯的观点来看,对于模型参数的数量超过数据点数量的情形,没有任何难解之处。实际上,⼀个贝叶斯模型中,参数的有效( effective)数量会⾃动根据数据集的规模调节

我们期望建⽴相对复杂和灵活的模型。常⽤来控制过拟合现象的⼀种技术是正则化( regularization)。这种技术涉及到给误差函数(1.2)增加⼀个惩罚项,使得系数不会达到很⼤的值。

E˜(w)=12∑n=1N{y(xn,w)−tn}2+λ2||w||2(1.4)

⼆次正则项的⼀个特殊情况被称为岭回归( ridge regression),在神经⽹络的情形中,这种⽅法被叫做权值衰减( weight decay)。

λ控制了模型的复杂性,因此决定了过拟合的程度

1.2概率论

模式识别的一个核心概念是不确定性。这是由测量时的噪声以及有限的数据集造成的。概率论提供了一个量化,控制这样的不确定性的一致性框架,是模式识别的核心基础。

当与决策论相结合时,我们可以从有限的信息中做出最优的决定,尽管这些信息事不完整的,有歧义的。

加法规则:

p(X)=∑Yp(X,Y)(1.5)

乘法规则:

p(X,Y)=p(Y|X)p(X)(1.6)

贝叶斯定理:

p(Y|X)=p(X|Y)p(Y)p(X)(1.7)

分母p(X)利用加法和乘法规则能写成p(X)=∑Yp(X|Y)p(Y),可以看作归一化常数

1.21概率密度

如果⼀个实值变量x的概率落在区间(x;x+δx)的概率由p(x)δx给出(δx→0),那么p(x)叫做x的概率密度( probability density)



概率密度可以表⽰为累计密度函数P(x)的导数,x位于区间(a,b)的概率由下式给出:

p(x∈(a,b))=∫bap(x)dx(1.8)

注意:如果x是⼀个离散变量,那么p(x)有时被叫做概率质量函数( probability mass function),因为它可以被看做集中在合法的x值处的“概率质量”的集合

1.22期望与协方差

涉及到概率的⼀个重要的操作是寻找函数的加权平均值,在概率分布p(x)下,函数f(x)的平均值被称为f(x)的期望,记作E[f]

离散变量:E[f]=∑xp(x)f(x)(1.9)

连续变量:E[f]=∫p(x)f(x)dx(1.10)

f(x)的方差定义为:

var[f]=
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  mlrv