您的位置:首页 > 其它

从折棍子(Stick Breaking)模型到狄利克雷过程(DP)

2017-01-09 11:58 1101 查看

折棍子(Stick Breaking)过程

先定义一个变量序列β1,β2,...,βi,...,其中,βi∼Beta(1,α)

根据Beta分布的性质,0<βi<1,(i=1,2,...)

然后折棍子(Stick Breaking)过程就来了:

有一根长度为1的根子(Stick)

1)截取这根棍子长度为β1的一段,并令π1为这一段的长度β1,且棍子剩下的长度为L1=1−β1;

2)截取剩下棍子L1长度为L1β2的一段,并令π2为这一段的长度(1−β1)β2,且棍子剩下的长度为L2=L1(1−β2);

3)截取剩下棍子L2长度为L2β3的一段,并令π3为这一段的长度(1−β1)(1−β2)β3,且棍子剩下的长度为L3=L2(1−β3);

...

其图示过程如下:



引入β0=0,则πi=βi∏i=0i−1(1−βi)

把这根棍子不断折下去,可以得到很多个πi,而且很容易知道有∑i=1∞πi=1

好,一个比较难理解的概念来了:可以将π1,π2,⋯看作关于正整数的随机概率分布

我的理解:抽样出正整数1的概率为π1,抽样出正整数2的概率为π2,⋯,抽样出正整数i的概率为πi

而且这个概率分布有一个参数α,于是,我们把这么一个过程记为πi∼GEM(α)(GEM分别是Griffiths, Engen和McCloskey的首字母)

我们再来看看,当α取不同的值时,这个概率分布大概什么样子

当α=1时,πi的前30次抽样结果如下



而当α=5时,πi的前30次抽样结果如下



可以看到,这里α控制差πi的“衰减”速度,且α偏小的时候衰减得更快

定义分布函数G

已知一个分布函数H,然后由此定义一个序列ϕ1,ϕ2,⋯,ϕi,⋯,其中的每个元素由从分布H中抽样得到,即ϕi∼H

好,一个比较难理解的概率来了,假设δϕi是ϕi点的概率测度

这里可以理解成,在分布H中抽样得到ϕi附近的点的可能性的大小。

我们知道,当抽样多个点的时候,这些点更多的集中在H的函数值较大的地方。但是,对于单个点而言,它的采样概率是0(正如点的面积是0),这种采样点分布的性质不能用概率来很好的描述。而概率测度这么一个概念,则能较好地描述这一性质,即采样到这一点“附近”的可能性的大小,当然数学上如何严格定义这里的“附近”则是另一番话了。

定义一个概率分布

G=∑i=1∞πiδϕi(这里的πi就是上文里定义的πi)

这个又不大好理解了。可以认为在分布G中,采样到点ϕ1,ϕ2,⋯,ϕi,⋯的概率分别为π1ϕ1,π2ϕ2,⋯,πiϕi,⋯

注意,这里又可以用“概率”这么一个词了,因为这个地方定义的分布G是一个离散的分布了。

Sethuraman这么大神,证明了如此构造的分布函数G是服从Dirichlet Process的,即,

G∼DP(α,H)

关于DP的正式定义,可见我的另一篇博客《由中餐馆过程(CRP)理解狄利克雷过程(DP)》,http://blog.csdn.net/sysuhu/article/details/53725696

如何证明,我也没有深究过,后面如果有空再研究研究。

【简单描述下我的理解,暂且到这里了】

Free Mind的blog:概率与测度系列

http://blog.pluskid.org/?page_id=770

周建英,王飞跃,曾大军:分层Dirichlet过程及其应用综述

http://www.cnki.net/KCMS/detail/detail.aspx?filename=MOTO201104001&dbname=CJFD2011&dbcode=CJFQ
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  DP