<统计学习方法>5 逻辑斯蒂回归与最大熵模型
2017-09-09 21:16
330 查看
逻辑斯蒂回归(logistic regression)是一种分类方法
最大熵是概率模型学习的一个准则,将其推广到分类问题得到最大熵(maximum entropy)模型
两者都属于对数线性模型
F(x)=P(X≤x)=11+e−(x−μ)/γ
f(x)=F′(x)=e−(x−μ)/γγ(1+e−(x−μ)/γ)2
μ 为位置参数, γ 为形状参数
分布函数属于逻辑斯蒂函数,其图形式一条S形曲线(sigmoid curve),该曲线以点 (μ,12) 为中心对称,即满足:
F(−x+μ)−12=−F(x−μ)+12
曲线在中心附近增长速度较快,在两端增长速度较慢,形状参数 γ 的值越小,曲线在中心附近增长得越快
定义:二项逻辑斯回归模型是如下的条件概率分布:
P(Y=1|x)=exp(w⋅x+b)1+exp(w⋅x+b)
P(Y=0|x)=11+exp(w⋅x+b)
x∈Rn 是输入, Y∈{0,1},w∈Rn 和 b∈R 是参数,w 称为权值向量,b 称为偏置
若将 w ,b 写成更简洁的形式,多加一维度就好: w=(w(1),w(2),…,w(n),b)T, x=(x(1),x(2),…,x(n),1)T
对于给定的输入实例 x , 按照上式求出两个条件概率,哪个大就将实例 x 归类到哪一类
逻辑斯回归模型特点
一个事件的几率(odds)指该事件发生的概率与该事件不发生的概率的比值,若一个事件发生的概率是 p, 那么该事件的几率为 p1−p,该事件的对数几率(log odds) 或 logit 函数是:
logit(p)=logp1−p
用上面两个条件概率代入可得:
logP(Y=1|x)1−P(Y=1|x)=w⋅x
即是说,在该模型中,输出Y=1的对数几率是输入 x 的线性函数
设 P(Y=1|x)=π(x),P(Y=0|x)=1−π(x)
似然函数为∏i=1N[π(xi)]yi[1−π(xi)]1−yi
对数似然函数为L(w)=∑i=1N[yilogπ(xi)+(1−yi)log(1−π(xi))]=∑i=1N[yilogπ(xi)1−π(xi)+log(1−π(xi))]=∑i=1N[yi(w⋅xi)−log(1+exp(w⋅xi))]
对L(w) 求极大值,得到 w 的估计值
这样问题就变成了以对数似然函数为目标函数的最优化问题。逻辑斯谛回归学习中通常采用的方法是梯度下降法及拟牛顿法
假设离散型随机变量Y 的取值集合是 {1,2,⋯,K},则多项逻辑斯谛回归模型为P(Y=k|x)=exp(wk⋅x)1+∑K−1k=1exp(wk⋅x),k=1,2,⋯,K−1
P(Y=K|x)=11+∑K−1k=1exp(wk⋅x)
通常用约束条件来确定概率模型的集合
假设离散随机变量 X 的概率分布是 P(X),则其熵为H(P)=−∑xP(x)logP(x)
熵满足以下不等式: 0≤H(P)≤log|X|
|X| 是 X 的取值个数,当且仅当X的分布是均匀分布时右边的等号成立:即 X 服从均匀分布时,熵最大
假设满足所有约束条件的模型集合为
C≡{P∈P|EP(fi)=EP~(fi)}
其中 EP~(fi) 表示特征函数 fi(x,y) 关于经验分布 P~(X,Y)的期望值 (经验分布指训练数据的分布)
上述的特征函数(feature function) fi(x,y)是个二值函数,当 x y 满足这个事实时取值为1, 否则取0
EP~(fi) 是特征函数关于经验分布 P~(X,Y) 的期望值,EP~(fi)=∑x,yP~(x,y)fi(x,y)
定义在条件概率分布 P(Y|X) 上的条件熵为H(P)=∑x,yP~(x)P(y|x)logP(y|x)
则模型集合C 中条件熵H(P)最大的模型称为最大熵模型,式中对数为自然对数
思路如下:
该优化问题为:maxP∈CH(P)=−∑x,yP~(x)P(y|x)logP(y|x) s.t.EP(fi)=EP~(fi),i=1,2,⋯,n ∑yP(y|x)=1
将约束最优化的原始问题转换为无约束最优化的对偶问题,通过求解对偶问题求解原始问题:用 拉格朗日函数
对偶后,对拉格朗日函数求偏导
通常通过迭代算法求解
从优化角度,常用的方法为:改进的迭代尺度法,梯度下降法,牛顿法或拟牛顿法。牛顿法或拟牛顿法一般收敛速度更快
最大熵是概率模型学习的一个准则,将其推广到分类问题得到最大熵(maximum entropy)模型
两者都属于对数线性模型
逻辑斯蒂回归模型
逻辑斯蒂分布
定义:设 X 是连续随机变量, X服从逻辑斯蒂分布是指 X 具有下列分布函数和密度函数:F(x)=P(X≤x)=11+e−(x−μ)/γ
f(x)=F′(x)=e−(x−μ)/γγ(1+e−(x−μ)/γ)2
μ 为位置参数, γ 为形状参数
分布函数属于逻辑斯蒂函数,其图形式一条S形曲线(sigmoid curve),该曲线以点 (μ,12) 为中心对称,即满足:
F(−x+μ)−12=−F(x−μ)+12
曲线在中心附近增长速度较快,在两端增长速度较慢,形状参数 γ 的值越小,曲线在中心附近增长得越快
二项逻辑斯蒂回归模型
二项逻辑斯回归模型是一种分类模型,由条件概率分布 P(Y|X) 表示,形式为参数化的逻辑斯谛分布定义:二项逻辑斯回归模型是如下的条件概率分布:
P(Y=1|x)=exp(w⋅x+b)1+exp(w⋅x+b)
P(Y=0|x)=11+exp(w⋅x+b)
x∈Rn 是输入, Y∈{0,1},w∈Rn 和 b∈R 是参数,w 称为权值向量,b 称为偏置
若将 w ,b 写成更简洁的形式,多加一维度就好: w=(w(1),w(2),…,w(n),b)T, x=(x(1),x(2),…,x(n),1)T
对于给定的输入实例 x , 按照上式求出两个条件概率,哪个大就将实例 x 归类到哪一类
逻辑斯回归模型特点
一个事件的几率(odds)指该事件发生的概率与该事件不发生的概率的比值,若一个事件发生的概率是 p, 那么该事件的几率为 p1−p,该事件的对数几率(log odds) 或 logit 函数是:
logit(p)=logp1−p
用上面两个条件概率代入可得:
logP(Y=1|x)1−P(Y=1|x)=w⋅x
即是说,在该模型中,输出Y=1的对数几率是输入 x 的线性函数
模型参数估计
用极大似然法估计模型参数:设 P(Y=1|x)=π(x),P(Y=0|x)=1−π(x)
似然函数为∏i=1N[π(xi)]yi[1−π(xi)]1−yi
对数似然函数为L(w)=∑i=1N[yilogπ(xi)+(1−yi)log(1−π(xi))]=∑i=1N[yilogπ(xi)1−π(xi)+log(1−π(xi))]=∑i=1N[yi(w⋅xi)−log(1+exp(w⋅xi))]
对L(w) 求极大值,得到 w 的估计值
这样问题就变成了以对数似然函数为目标函数的最优化问题。逻辑斯谛回归学习中通常采用的方法是梯度下降法及拟牛顿法
多项逻辑斯蒂回归
上面的逻辑斯谛回归模型是二项分布模型,属于二类分类,可以将其推广为多项逻辑斯谛回归模型假设离散型随机变量Y 的取值集合是 {1,2,⋯,K},则多项逻辑斯谛回归模型为P(Y=k|x)=exp(wk⋅x)1+∑K−1k=1exp(wk⋅x),k=1,2,⋯,K−1
P(Y=K|x)=11+∑K−1k=1exp(wk⋅x)
最大熵模型
最大熵原理
最大熵原理是概率模型学习的一个准则。最大熵原理认为,学习概率模型时,在所有可能的概率模型(分布)中,熵最大的模型是最好的模型。通常用约束条件来确定概率模型的集合
假设离散随机变量 X 的概率分布是 P(X),则其熵为H(P)=−∑xP(x)logP(x)
熵满足以下不等式: 0≤H(P)≤log|X|
|X| 是 X 的取值个数,当且仅当X的分布是均匀分布时右边的等号成立:即 X 服从均匀分布时,熵最大
最大熵模型的定义
即是用最大熵原理选择最好的分类的模型假设满足所有约束条件的模型集合为
C≡{P∈P|EP(fi)=EP~(fi)}
其中 EP~(fi) 表示特征函数 fi(x,y) 关于经验分布 P~(X,Y)的期望值 (经验分布指训练数据的分布)
上述的特征函数(feature function) fi(x,y)是个二值函数,当 x y 满足这个事实时取值为1, 否则取0
EP~(fi) 是特征函数关于经验分布 P~(X,Y) 的期望值,EP~(fi)=∑x,yP~(x,y)fi(x,y)
定义在条件概率分布 P(Y|X) 上的条件熵为H(P)=∑x,yP~(x)P(y|x)logP(y|x)
则模型集合C 中条件熵H(P)最大的模型称为最大熵模型,式中对数为自然对数
最大熵模型的学习
最大熵模型的学习过程就是求解最大熵模型的过程,可以形式化为约束最优化问题思路如下:
该优化问题为:maxP∈CH(P)=−∑x,yP~(x)P(y|x)logP(y|x) s.t.EP(fi)=EP~(fi),i=1,2,⋯,n ∑yP(y|x)=1
将约束最优化的原始问题转换为无约束最优化的对偶问题,通过求解对偶问题求解原始问题:用 拉格朗日函数
对偶后,对拉格朗日函数求偏导
极大似然估计
对偶函数的极大化等价于最大熵模型的极大似然估计模型学习的最优化算法
逻辑斯谛回归模型、最大熵模型学习归结为以似然函数为目标函数的最优化问题通常通过迭代算法求解
从优化角度,常用的方法为:改进的迭代尺度法,梯度下降法,牛顿法或拟牛顿法。牛顿法或拟牛顿法一般收敛速度更快
改进的迭代尺度法
改进的迭代尺度法(improved iterative scaling, IIS)是一种最大熵模型学习的最优化算法拟牛顿法
相关文章推荐
- 统计学习方法:逻辑斯蒂回归和最大熵模型
- 李航·统计学习方法笔记·第6章 logistic regression与最大熵模型(1)·逻辑斯蒂回归模型
- 统计学习方法 –> 逻辑死地回归与最大熵模型
- 统计学习方法 6-逻辑斯谛回归与最大熵模型
- 统计学习方法——逻辑斯蒂回归模型
- 统计学习方法 第6章 逻辑斯谛回归与最大熵模型(1)
- 统计学习方法 第6章 逻辑斯谛回归与最大熵模型(2)
- 统计学习方法笔记:逻辑斯谛回归与最大熵模型(上)
- 统计学习方法笔记:逻辑斯谛回归与最大熵模型(下)
- 统计学习方法-Logistic(逻辑斯蒂)回归
- 逻辑斯蒂回归3 -- 最大熵模型之改进的迭代尺度法(IIS)
- 机器学习模型(二)最大熵模型与逻辑斯蒂回归模型
- 逻辑斯蒂回归3 -- 最大熵模型之改进的迭代尺度法(IIS)
- 统计学习方法(三) logisitic回归与最大熵模型
- 统计学习-逻辑回归(LR)和最大熵模型
- 统计学习方法-逻辑斯蒂回归
- 逻辑斯蒂回归与最大熵模型----《统计学习方法》第6章
- 逻辑斯蒂回归,最大熵模型及其等价性
- 逻辑斯蒂回归模型与最大熵模型
- <机器学习练习>逻辑斯谛回归