您的位置：首页 > 其它

简单易学的机器学习算法——EM算法

2015-06-12 14:30 309 查看

一、机器学习中的参数估计问题

在前面的博文中，如“简单易学的机器学习算法——Logistic回归”中，采用了极大似然函数对其模型中的参数进行估计，简单来讲即对于一系列样本
$\left \{ X_i,y_i \right \},i=1,\cdots ,n$
，Logistic回归问题属于监督型学习问题，样本中含有训练的特征
$X_i$
以及标签
$y_i$
，在Logistic回归的参数求解中，通过构造样本属于类别
$1$
和类别
$0$
的概率：

$P\left ( y=1\mid x;\theta \right )=\sigma \left ( \theta ^TX \right )$

$P\left ( y=0\mid x;\theta \right )=1-\sigma \left ( \theta ^TX \right )$

这样便能得到Logistic回归的属于不同类别的概率函数：

$P\left ( y\mid x;\theta \right )=\left ( \sigma \left ( \theta ^TX \right ) \right )^y\left (1-\sigma \left ( \theta ^TX \right ) \right )^\left ( 1-y \right )$

此时，使用极大似然估计便能够估计出模型中的参数。但是，如果此时的标签
$y$
是未知的，称为隐变量，如无监督的学习问题，典型的如K-Means聚类算法，此时不能直接通过极大似然估计估计出模型中的参数。

二、EM算法简介

在上述存在隐变量的问题中，不能直接通过极大似然估计求出模型中的参数，EM算法是一种解决存在隐含变量优化问题的有效方法。EM算法是期望极大(Expectation
Maximization)算法的简称，EM算法是一种迭代型的算法，在每一次的迭代过程中，主要分为两步：即求期望(Expectation)步骤和最大化(Maximization)步骤。

三、EM算法推导的准备

1、凸函数

设
$f$
是定义在实数域上的函数，如果对于任意的实数
$x$
，都有

${f}''\geqslant 0$

那么
$f$
是凸函数。若
$x$
不是单个实数，而是由实数组成的向量，此时，如果函数
$f$
的Hesse矩阵
$H$
是半正定的，即

${H}''\geqslant 0$

那么
$f$
是凸函数。特别地，如果
${f}''> 0$
或者
${H}''> 0$
，那么称
$f$
为严格凸函数。

2、Jensen不等式

如果函数
$f$
是凸函数，
$x$
是随机变量，那么

$E\left [ f\left ( x \right ) \right ]\geqslant f\left ( Ex \right )$

特别地，如果函数
$f$
是严格凸函数，那么
$E\left [ f\left ( x \right ) \right ]= f\left ( Ex \right )$
当且仅当

$p\left ( x=Ex \right )=1$

即随机变量
$x$
是常量。

(图片来自参考文章1)
注：若函数
$f$
是凹函数，上述的符号相反。

3、数学期望

3.1随机变量的期望

设离散型随机变量
$X$
的概率分布为：

$p_i=p\left \{ X=x_i \right \}$

其中，
$i=1,2,\cdots$
，如果
$\sum_{i}x_ip_i$
绝对收敛，则称
$\sum_{i}x_ip_i$
为
$X$
的数学期望，记为
$E\left ( X \right )$
，即：

$E\left ( X \right )=\sum_{i}x_ip_i$

若连续型随机变量
$X$
的概率密度函数为
$f\left ( x \right )$
，则数学期望为：

$E\left ( X \right )=\int_{-\infty }^{+\infty }xf\left ( x \right )dx$

3.2随机变量函数的数学期望

设
$Y$
是随机变量
$X$
的函数，即
$Y=g\left ( X \right )$
，若
$X$
是离散型随机变量，概率分布为：

$p_i=p\left \{ X=x_i \right \}$

则：

$E\left ( Y \right )=E\left ( g\left ( X \right ) \right )=\sum_{i}g\left ( x_i \right )p_i$

若
$X$
是连续型随机变量，概率密度函数为
$f\left ( x \right )$
，则

$E\left ( Y \right )=E\left ( g\left ( X \right ) \right )=\int_{-\infty }^{+\infty }g\left ( x \right )f\left ( x \right )dx$

四、EM算法的求解过程

假设
$Y$
表示观测变量，
$Z$
表示潜变量，则此时
$\left ( Y,Z \right )$
即为完全数据，
$Y$
的似然函数为
$P\left ( Y\mid \theta \right )$
，其中，
$\theta$
为需要估计的参数，那么对于完全数据，
$\left ( Y,Z \right )$
的似然函数为
$P\left ( Y,Z\mid \theta \right )$
。
构建好似然函数，对于给定的观测数据，为了估计参数
$\theta$
，我们可以使用极大似然估计的方法对其进行估计。因为变量
$Z$
是未知的，我们只能对
$Y$
的似然函数为
$P\left ( Y\mid \theta \right )$
进行极大似然估计，即需要极大化：

$\begin{align*} l\left ( \theta \right )&=log\; L\left ( \theta \right )=log\; P\left ( Y\mid \theta \right ) \\ &= log\; \sum_{Z}P\left ( Y,Z\mid \theta \right ) \end{align*}$

上述式子中无法直接对
$l\left ( \theta \right )$
求极大值，因为在函数中存在隐变量
$Z$
，即未知变量。若此时，我们能够确定隐变量
$Z$
的值，便能够求出
$l\left ( \theta \right )$
的极大值，可以用过不断的修改隐变量
$Z$
的值，得到新的
$l\left ( \theta \right )$
的极大值。这便是EM算法的思路。通过迭代的方式求出参数
$\theta$
。
首先我们需要对参数
$\theta$
赋初值，进行迭代运算，假设第
$i$
次迭代后参数
$\theta$
的值为
$\theta ^\left ( i \right )$
，此时的log似然函数为
$l\left ( \theta ^\left ( i \right )\right )$
，即：

$\begin{align*} l\left ( \theta ^{\left ( i \right )} \right ) &=log\; \sum_{Z}P\left ( Y,Z\mid \theta ^{\left ( i \right )} \right ) \\ &= log\; \sum_{Z}Q_i\left ( Z \right )\cdot \frac{P\left ( Y,Z\mid \theta ^{\left ( i \right )} \right )}{Q_i\left ( Z \right )}\\ &\geqslant \sum_{Z}Q_i\left ( Z \right )\cdot log\; \frac{P\left ( Y,Z\mid \theta ^{\left ( i \right )} \right )}{Q_i\left ( Z \right )} \end{align*}$

在上式中，第二行到第三行使用到了Jensen不等式，由于log函数是凹函数，由Jensen不等式得到：

$E\left [ f\left ( x \right ) \right ]\leqslant f\left ( Ex \right )$

而

$\sum_{Z}Q_i\left ( Z \right )\cdot \frac{P\left ( Y,Z\mid \theta ^{\left ( i \right )} \right )}{Q_i\left ( Z \right )}$

表示的是
$\frac{P\left ( Y,Z\mid \theta ^{\left ( i \right )} \right )}{Q_i\left ( Z \right )}$
的期望，其中，
$Q_i\left ( Z \right )$
表示的是隐变量
$Z$
满足的某种分布。这样，上式
$l\left ( \theta ^\left ( i \right )\right )$
的值取决于
$Q_i\left ( Z \right )$
和
$P\left ( Y,Z\mid \theta ^{\left ( i \right )} \right )$
的概率。在迭代的过程中，调整这两个概率，使得下界不断的上升，这样就能求得
$l\left ( \theta \right )$
的极大值。注意，当等式成立时，说明此时已经等价于
$l\left ( \theta \right )$
。由Jensen不等式可知，等式成立的条件是随机变量是常数，即：

$\frac{P\left ( Y,Z\mid \theta ^{\left ( i \right )} \right )}{Q_i\left ( Z \right )}=C$

已知：

$\sum_{Z}Q_i\left ( Z \right )=1$

所以：

$\sum_{Z}P\left ( Y,Z\mid \theta ^{\left ( i \right )} \right )=C$

则：

$\begin{align*} Q_i\left ( Z \right )&= \frac{P\left ( Y,Z\mid \theta ^{\left ( i \right )} \right )}{\sum_{Z}P\left ( Y,Z\mid \theta ^{\left ( i \right )} \right )}\\ &= \frac{P\left ( Y,Z\mid \theta ^{\left ( i \right )} \right )}{P\left ( Y\mid \theta ^{\left ( i \right )} \right )}\\ &=P\left ( Z\mid Y,\theta ^{\left ( i \right )} \right ) \end{align*}$

至此，我们得出了隐变量
$Z$
满足的分布的形式
$Q_i\left ( Z \right )$
。这就是EM算法中的E步。在确定了
$Q_i\left ( Z \right )$
后，调整参数
$\theta$
使得
$l\left ( \theta \right )$
取得极大，这便是M步。EM算法的步骤为：

初始化参数
$\theta ^\left ( 0 \right )$
，开始迭代；
E步：假设
$\theta ^\left ( i \right )$
为第
$i$
次迭代参数
$\theta$
的估计值，则在第
$i+1$
次迭代中，计算
$Q_i\left ( Z \right )$
：
$Q_i\left ( Z \right )=P\left ( Z\mid Y,\theta ^\left ( i \right ) \right )$

M步：求使
$l\left ( \theta ^\left ( i \right )\right )$
极大化的
$\theta$
，确定第
$i+1$
次的参数的估计值
$\theta ^\left ( i+1 \right )$
：
$\theta ^{\left ( i+1 \right )}=\underset{\theta }{arg\: max}\sum_{Z}Q_i\left ( Z \right )\cdot log\; \frac{P\left ( Y,Z\mid \theta ^\left ( i \right ) \right )}{Q_i\left ( Z \right )}$

五、EM算法的收敛性保证

迭代的过程能否保证最后找到的就是最大的似然函数值呢？即需要证明在整个迭代的过程中，极大似然估计是单调增加的。假定
$\theta ^\left ( t \right )$
和
$\theta ^\left ( t+1 \right )$
是EM算法的第
$t$
次和第
$t+1$
次迭代后的结果，选定
$\theta ^\left ( t \right )$
，进行迭代：

E步：
$Q_{t}\left ( Z \right )=P\left ( Z\mid Y,\theta ^\left ( i \right ) \right )$

M步：
$l\left ( \theta ^{\left ( t \right )} \right )=\sum_{Z}Q_{t}\left ( Z \right )\cdot log\; \frac{P\left ( Y,Z\mid \theta ^{\left ( t \right )} \right )}{Q_{t}\left ( Z \right )}$

固定
$Q_t\left ( Z \right )$
，将
$\theta ^\left ( t \right )$
看成变量：

$\begin{align*} l\left ( \theta ^{\left ( t+1 \right )} \right ) &= \sum_{Z}Q_{t+1}\left ( Z \right )\cdot log\; \frac{P\left ( Y,Z\mid \theta ^{\left ( t+1 \right )} \right )}{Q_{t+1}\left ( Z \right )}\\ &\geqslant \sum_{Z}Q_{t}\left ( Z \right )\cdot log\; \frac{P\left ( Y,Z\mid \theta ^{\left ( t+1 \right )} \right )}{Q_{t}\left ( Z \right )} \\ &\geqslant \sum_{Z}Q_{t}\left ( Z \right )\cdot log\; \frac{P\left ( Y,Z\mid \theta ^{\left ( t \right )} \right )}{Q_{t}\left ( Z \right )} \\ &=l\left ( \theta ^{\left ( t\right )} \right ) \end{align*}$

上式中，第一个大于等于是因为：

$\theta ^{\left ( i+1 \right )}=\underset{\theta }{arg\: max}\sum_{Z}Q_i\left ( Z \right )\cdot log\; \frac{P\left ( Y,Z\mid \theta ^\left ( i \right ) \right )}{Q_i\left ( Z \right )}$

六、利用EM算法参数求解实例

假设有有一批数据
$\left ( x_1,x_2,\cdots ,x_n \right )$
分别是由两个正态分布：

$X_1\sim N\left ( \mu _1,\sigma ^2_1 \right )$

$X_2\sim N\left ( \mu _2,\sigma ^2_2 \right )$

产生，其中，
$\mu _1$
和
$\mu _2$
未知，
$\sigma ^2_1=\sigma ^2_2$
。但是不知道具体的
$x_i$
是第产生，即可以使用
$z_{i,1}$
和
$z_{i,2}$
表示。这是一个典型的涉及到隐藏变量的例子，隐藏变量为
$z_{i,1}$
和
$z_{i,2}$
。可以使用EM算法对参数进行估计。

首先是初始化
$\mu _1$
和
$\mu _2$
；
E步：
$Q_{t}\left ( Z \right )=P\left ( Z\mid Y,\theta ^\left ( i \right ) \right )$
，即求数据
$x_i$
是由第
$j$
个分布产生的概率：
$P\left ( z_{i,j}\mid x_i,\mu_j \right )=\frac{e^{-\frac{1}{2\sigma ^2}\left ( x_i-\mu _j \right )^2}}{\sum_{n=1}^{2}e^{-\frac{1}{2\sigma ^2}\left ( x_i-\mu _n\right )^2}}$

M步：
$\theta ^{\left ( i+1 \right )}=\underset{\theta }{arg\: max}\sum_{Z}Q_i\left ( Z \right )\cdot log\; \frac{P\left ( Y,Z\mid \theta ^\left ( i \right ) \right )}{Q_i\left ( Z \right )}$
，即计算最大的期望值。然而我们要求的参数是均值，可以通过如下的方式估计：
$\mu _j=\frac{\sum_{i=1}^{m}P\left ( z_{i,j}\mid x_i,\mu _j \right )x_i}{\sum_{i=1}^{m}P\left ( z_{i,j}\mid x_i,\mu _j \right )}$

Python代码

#coding:UTF-8
'''
Created on 2015年6月7日

@author: zhaozhiyong
'''
from __future__ import division
from numpy import *
import math as mt
#首先生成一些用于测试的样本
#指定两个高斯分布的参数，这两个高斯分布的方差相同
sigma = 6
miu_1 = 40
miu_2 = 20

#随机均匀选择两个高斯分布，用于生成样本值
N = 1000
X = zeros((1, N))
for i in xrange(N):
    if random.random() > 0.5:#使用的是numpy模块中的random
        X[0, i] = random.randn() * sigma + miu_1
    else:
        X[0, i] = random.randn() * sigma + miu_2

#上述步骤已经生成样本
#对生成的样本，使用EM算法计算其均值miu

#取miu的初始值
k = 2
miu = random.random((1, k))
#miu = mat([40.0, 20.0])
Expectations = zeros((N, k))

for step in xrange(1000):#设置迭代次数
    #步骤1，计算期望
    for i in xrange(N):
        #计算分母
        denominator = 0
        for j in xrange(k):
            denominator = denominator + mt.exp(-1 / (2 * sigma ** 2) * (X[0, i] - miu[0, j]) ** 2)
        
        #计算分子
        for j in xrange(k):
            numerator = mt.exp(-1 / (2 * sigma ** 2) * (X[0, i] - miu[0, j]) ** 2)
            Expectations[i, j] = numerator / denominator
    
    #步骤2，求期望的最大
    #oldMiu = miu
    oldMiu = zeros((1, k))
    for j in xrange(k):
        oldMiu[0, j] = miu[0, j]
        numerator = 0
        denominator = 0
        for i in xrange(N):
            numerator = numerator + Expectations[i, j] * X[0, i]
            denominator = denominator + Expectations[i, j]
        miu[0, j] = numerator / denominator
        
    
    #判断是否满足要求
    epsilon = 0.0001
    if sum(abs(miu - oldMiu)) < epsilon:
        break
    
    print step
    print miu
    
print miu

最终结果

[[ 40.49487592 19.96497512]]

参考文章：

1、(EM算法)The EM
Algorithm (http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006936.html)

2、数学期望(http://wenku.baidu.com/view/915a9c1ec5da50e2524d7f08.html?re=view)

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航