您的位置：首页 > 其它

第3章-从线性概率模型到广义线性模型(2)

2016-07-26 14:22 323 查看

原文参考

斯坦福机器学习cs229-2-Generative Learning algorithms

https://mathdept.iut.ac.ir/sites/mathdept.iut.ac.ir/files/AGRESTI.PDF

http://data.princeton.edu/wws509/notes/c4a.pdf

http://www.cnblogs.com/ooon/p/5845917.html

回顾上节文章中提到的logistic和probit模型：

我们假定了潜变量模型

y*=xβ+u

(y=1，when y*>0; y=0，when y*<=0)

中的残差变量服从对应的是logistic分布或正态分布，并且我们假定

P(y=1|x)=G(β0+β1x1+β2x2+…+βnxn)=G(β0+xβ)=G(xβ)

的变换函数G()为对应的”标准的Logistic随机变量的累计分布函数”或

“标准的正态随机变量的累计分布函数”。

那么这两个模型的因变量都是离散的或者说是定性( or 分类)变量。

这类变量除了第一节讨论的名义变量中的二元变量外，还有下面三种形式：

名义变量中的多元变量

定序变量

计数变量

备注：

1，由0-1二元变量的期望等于P(Y=1|x)的概率可知，我们的研究问题也可以是针对因变量为概率型

2，对于因变量为数据值的数据，也是可以分组为上述几种离散数据的形式的

3，对于因变量的意义为“占比”时，可以转换为计数问题

4，根据变量的层级关系：名义变量<定序变量 <计数或者说间隔变量，我们的模型适用情况如下，低层的模型可以适用于高层，反之不成立。举例说明，针对名义变量设计出来模型可以适用于定序变量，但是针对定序变量设计出来的模型不适用于名义变量。但是要记住一点，这种跨层级模型使用方式并不是最优的，因为模型并没有充分利用数据中的信息。

一，离散变量的概率分布

1，伯努利分布(0-1分布)

略...
例子：扔硬币正面朝上的概率

2，二项分布

略...
np之积>5时，分布近似正态分布
例子：扔硬币k次正面朝上的概率p

3，多项分布

略...
例子：扔骰子，k次中均由其中一个面(比如说点数6)朝上的概率

4，负二项分布

略...
例子：扔硬币，刚好在第r+k次试验出现第r次正面朝上的概率

5，泊松分布

X:一定时间或空间内，稀有事件发生的个数，一般服从泊松分布
当二项分布的p很小，n很大时，极限分布为泊松分布
当然，二项分布、泊松分布与正态分布之间都有关系，[参见](https://wenku.baidu.com/view/6cd5121da300a6c30c229fbb.html)

5.1 泊松分布的：overdispersion

我们知道，理论上，泊松分布的期望和方差是相等的，但此时若观测到的样本方差系统地大于分布假设下的方差，就出现了所谓的 “超散布性”(overdispersion)，类似地，若出现方差偏小的情况，也就相应出现了 “超聚集性”(underdispersion)。

5.2 当泊松分布出现overdispersion现象时，通常可以转换成使用负二项分布进行建模。

负二项分布可以看成是广义的泊松分布，它可由 X|λ∼Poisson(λ) 且 λ∼Gamma(α,β)，推导得到。

(1) 如果，X|λ∼Poisson(λ)，则f(x|λ)=Pr(X=x|λ)=λxe−λx!

(2) 且， λ∼Gamma(α,β)，则f(λ)=aβГ(β)λβ−1e−aλ

(3) 我们可以得到，联合概率

Pr(X=x|λ)Pr(λ)

=λxe−λx!∗aβГ(β)λβ−1e−aλ

=aβx!•Г(β)λx+β−1e−(a+1)λ

则，x的边际分布即为负二项分布：

Pr(X=x)=aβx!•Г(β)∫∞0λx+β−1e−(a+1)λdλ

=Cnn+β−1(aa+1)β(1a+1)n

表示，第r=β次成功的负二项分布，且成功的概率为 p=aa+1，

6，引入先验信息

二项分布或多项分布中，随机事件发生的概率是固定的，但是如果对于总体中的不同个体，，随机事件发生是概率是不同时，在贝叶斯研究体系下，我们就可以引入先验概率对不同个体的发生概率进行的估计，然后再根据后验概率进行调整。

6.1 共轭分布

如果先验分布 p(θ) 和似然函数 p(X|θ) 可以使得先验 p(θ) 和后验分布 p(θ|X) 有相同的形式，那么就称先验分布与似然函数是共轭分布.

共轭性质：

当先验为 Beta ，似然为 Binomial分布时，后验仍然为 Beta ，但是这里的 Beta 是融入了 Binomial分布的计数的;

当先验为 Dirichlet，似然为 Multinomial 分布时，后验仍然为 Dirichlet，但是这里的 Dirichlet是融入了 Multinomial 分布的计数的.

6.2 Beta-Binomial distribution

假设，X|π∼Bin(n,π)，π∼Beta(α,β)

我们就可以根据数据得到π的先验概率，进而计算π的后验概率，最终推断出似然函数。

6.3 Dirichlet-MultiNomial distribution

略

二，Poisson 回归

当因变量研究的是计数或比率问题时，我们假设残差u服从Poisson分布（回归分析中假定x是确定性变量，由于残差服从泊松分布，所以因变量y也服从于泊松分布），G()变换为指数函数exp() (连接函数link=log())。则，此时对应的回归方程，则是Poisson回归。

1）Poisson分布

假设随机变量Y，服从参数为μ的泊松分布，则y=0,1,2…整数值的概率分布如下：

Pr{Y=y}=e−μμyy!

性质1：

且，满足(μ>0):

E(Y)=var(Y)=μ

从上式可知，任何影响均值的因素都会影响到方差，所以，同方差性假设不再适用与泊松数据。

性质2：

如果，Y1 ~ P(μ1)，Y2 ~ P(μ2)，则 Y1+Y2 ~ P(μ1+μ2)

2）Poisson回归

假设我们有n个观测值，y1,y2...,yn是分别服从泊松分布的随机变量，且Yi ~ P(μi)

（a）假设随机变量的均值(同时为方差)为μi与解释变量x成简单线性关系：

μi~x′iβ

上式缺点：公式左侧非负，而右侧是实数

（b）log-linear变换

log(μi)~x′iβ 则，μi~exp{x′iβ}

与第七章将要讲到的加法模型不同，该模型表示的是乘法效应

3）比率问题

单位时间或空间上的计数即为比率，对于泊松分布来说，问题转化为u/t

log(μ/t)=α+βx

log(μ)−log(t)=α+βx

log(μ)=α+βx+log(t)

μ=exp(α+βx+log(t))=(t)exp(α)exp(βx)

三，log-linear model

对数变换的方式适用于很多模型，型如:log(μi)~x′iβ 则，μi~exp{x′iβ}

其中，x′iβ为多元线性组合，而此时离散的因变量y，可以服从上述离散分布或未列出来的连续分布中的任何一种形式，然后我们求得方程 E(y|x)=μ

四，GLM(广义线性模型)

1，指数族

如果，一些分布通过变换能改写成如下形式，则我们称这些分布属于指数族

p(y;η)=b(y)exp(ηTT(y)−a(η))

此处，

η ：称作自然参数，对于有限的函数而言， η 的集合被称为自然参数空间

T (y) ：称作充分统计量，通常 T (y) = y

a(η) ：配分函数的对数形式,实际上它是归一化因子的对数形式

即，e−a(η) 使得p(y;η) 的累计概率/y的整体 = 1 (归一化)

当确定了T()时，a、b 决定了确定了服从参数为η的分布族

2，GLM

y | x; θ ∼ ExponentialFamily(η).给定x和θ，y的条件分布服从参数为η的指数族分布

我们的目标是用x来估计T(y)。大多数情况下，T(y)=y，即我们要根据我们的假设h下，求出h(x)=E(y|x)

参数η与x是线性关系：η=θTx

满足上述三个条件的模型，我们成为广义线性模型。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航