您的位置:首页 > 其它

第3章-从线性概率模型到广义线性模型(2)

2016-07-26 14:22 323 查看
原文参考

斯坦福机器学习cs229-2-Generative Learning algorithms

https://mathdept.iut.ac.ir/sites/mathdept.iut.ac.ir/files/AGRESTI.PDF

http://data.princeton.edu/wws509/notes/c4a.pdf

http://www.cnblogs.com/ooon/p/5845917.html

回顾上节文章中提到的logistic和probit模型:

我们假定了潜变量模型

y*=xβ+u

(y=1,when y*>0; y=0,when y*<=0)

中的残差变量服从对应的是logistic分布或正态分布,并且我们假定

P(y=1|x)=G(β0+β1x1+β2x2+…+βnxn)=G(β0+xβ)=G(xβ)

的变换函数G()为对应的”标准的Logistic随机变量的累计分布函数”或

“标准的正态随机变量的累计分布函数”。

那么这两个模型的因变量都是离散的或者说是定性( or 分类)变量。

这类变量除了第一节讨论的名义变量中的二元变量外,还有下面三种形式:

名义变量中的多元变量

定序变量

计数变量

备注:

1,由0-1二元变量的期望等于P(Y=1|x)的概率可知,我们的研究问题也可以是针对因变量为概率型

2,对于因变量为数据值的数据,也是可以分组为上述几种离散数据的形式的

3,对于因变量的意义为“占比”时,可以转换为计数问题

4,根据变量的层级关系:名义变量<定序变量 <计数或者说间隔变量,我们的模型适用情况如下,低层的模型可以适用于高层,反之不成立。举例说明,针对名义变量设计出来模型可以适用于定序变量,但是针对定序变量设计出来的模型不适用于名义变量。但是要记住一点,这种跨层级模型使用方式并不是最优的,因为模型并没有充分利用数据中的信息。

一,离散变量的概率分布

1,伯努利分布(0-1分布)

略...
例子:扔硬币正面朝上的概率


2,二项分布

略...
np之积>5时,分布近似正态分布
例子:扔硬币k次正面朝上的概率p


3,多项分布

略...
例子:扔骰子,k次中均由其中一个面(比如说点数6)朝上的概率


4,负二项分布

略...
例子:扔硬币,刚好在第r+k次试验出现第r次正面朝上的概率


5,泊松分布

X:一定时间或空间内,稀有事件发生的个数,一般服从泊松分布
当二项分布的p很小,n很大时,极限分布为泊松分布
当然,二项分布、泊松分布与正态分布之间都有关系,[参见](https://wenku.baidu.com/view/6cd5121da300a6c30c229fbb.html)


5.1 泊松分布的:overdispersion

我们知道,理论上,泊松分布的期望和方差是相等的,但此时若观测到的样本方差系统地大于分布假设下的方差,就出现了所谓的 “超散布性”(overdispersion),类似地,若出现方差偏小的情况,也就相应出现了 “超聚集性”(underdispersion)。

5.2 当泊松分布出现overdispersion现象时,通常可以转换成使用负二项分布进行建模。

负二项分布可以看成是广义的泊松分布,它可由 X|λ∼Poisson(λ) 且 λ∼Gamma(α,β),推导得到。

(1) 如果,X|λ∼Poisson(λ),则f(x|λ)=Pr(X=x|λ)=λxe−λx!

(2) 且, λ∼Gamma(α,β),则f(λ)=aβГ(β)λβ−1e−aλ

(3) 我们可以得到,联合概率

Pr(X=x|λ)Pr(λ)

=λxe−λx!∗aβГ(β)λβ−1e−aλ

=aβx!•Г(β)λx+β−1e−(a+1)λ

则,x的边际分布即为负二项分布:

Pr(X=x)=aβx!•Г(β)∫∞0λx+β−1e−(a+1)λdλ

=Cnn+β−1(aa+1)β(1a+1)n

表示,第r=β次成功的负二项分布,且成功的概率为 p=aa+1,

6,引入先验信息

二项分布或多项分布中,随机事件发生的概率是固定的,但是如果对于总体中的不同个体,,随机事件发生是概率是不同时,在贝叶斯研究体系下,我们就可以引入先验概率对不同个体的发生概率进行的估计,然后再根据后验概率进行调整。

6.1 共轭分布

如果先验分布 p(θ) 和似然函数 p(X|θ) 可以使得先验 p(θ) 和后验分布 p(θ|X) 有相同的形式,那么就称先验分布与似然函数是共轭分布.



共轭性质:

当先验为 Beta ,似然为 Binomial分布时,后验仍然为 Beta ,但是这里的 Beta 是融入了 Binomial分布的计数的;

当先验为 Dirichlet,似然为 Multinomial 分布时,后验仍然为 Dirichlet,但是这里的 Dirichlet是融入了 Multinomial 分布的计数的.

6.2 Beta-Binomial distribution

假设,X|π∼Bin(n,π),π∼Beta(α,β)

我们就可以根据数据得到π的先验概率,进而计算π的后验概率,最终推断出似然函数。

6.3 Dirichlet-MultiNomial distribution



二,Poisson 回归

当因变量研究的是计数或比率问题时,我们假设残差u服从Poisson分布(回归分析中假定x是确定性变量,由于残差服从泊松分布,所以因变量y也服从于泊松分布),G()变换为指数函数exp() (连接函数link=log())。则,此时对应的回归方程,则是Poisson回归。

1)Poisson分布

假设随机变量Y,服从参数为μ的泊松分布,则y=0,1,2…整数值的概率分布如下:

Pr{Y=y}=e−μμyy!

性质1:

且,满足(μ>0):

E(Y)=var(Y)=μ

从上式可知,任何影响均值的因素都会影响到方差,所以,同方差性假设不再适用与泊松数据。

性质2:

如果,Y1 ~ P(μ1),Y2 ~ P(μ2),则 Y1+Y2 ~ P(μ1+μ2)

2)Poisson回归

假设我们有n个观测值,y1,y2...,yn是分别服从泊松分布的随机变量,且Yi ~ P(μi)

(a)假设随机变量的均值(同时为方差)为μi与解释变量x成简单线性关系:

μi~x′iβ

上式缺点:公式左侧非负,而右侧是实数

(b)log-linear变换

log(μi)~x′iβ 则,μi~exp{x′iβ}

与第七章将要讲到的加法模型不同,该模型表示的是乘法效应

3)比率问题

单位时间或空间上的计数即为比率,对于泊松分布来说,问题转化为u/t

log(μ/t)=α+βx

log(μ)−log(t)=α+βx

log(μ)=α+βx+log(t)

μ=exp(α+βx+log(t))=(t)exp(α)exp(βx)

三,log-linear model

对数变换的方式适用于很多模型,型如:log(μi)~x′iβ 则,μi~exp{x′iβ}

其中,x′iβ为多元线性组合,而此时离散的因变量y,可以服从上述离散分布或未列出来的连续分布中的任何一种形式,然后我们求得方程 E(y|x)=μ

四,GLM(广义线性模型)

1,指数族

如果,一些分布通过变换能改写成如下形式,则我们称这些分布属于指数族

p(y;η)=b(y)exp(ηTT(y)−a(η))

此处,

η :称作自然参数,对于有限的函数而言, η 的集合被称为自然参数空间

T (y) :称作充分统计量,通常 T (y) = y

a(η) :配分函数的对数形式,实际上它是归一化因子的对数形式

即,e−a(η) 使得p(y;η) 的累计概率/y的整体 = 1 (归一化)

当确定了T()时,a、b 决定了确定了服从参数为η的分布族

2,GLM

y | x; θ ∼ ExponentialFamily(η).给定x和θ,y的条件分布服从参数为η的指数族分布

我们的目标是用x来估计T(y)。大多数情况下,T(y)=y,即我们要根据我们的假设h下,求出h(x)=E(y|x)

参数η与x是线性关系:η=θTx

满足上述三个条件的模型,我们成为广义线性模型。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: