您的位置:首页 > 运维架构

笔记:Online Robust PCA via Stochastic Optimization

2017-04-19 23:27 525 查看
Feng, J., Xu, H., & Yan, S. (2013). Online robust pca via stochastic optimization. In Advances in Neural Information Processing Systems (pp. 404-412).

本文是这篇 NIPS 会议论文的笔记,主要是对文中的理论方法进行展开详解。本人学术水平有限,文中如有错误之处,敬请指正。

摘要:RPCA 是一种典型的基于批量数据的优化方法,并需要在优化过程中,将所有样本载入内存中。这阻碍了它用于高效地处理大数据。此文设计了一种 Online RPCA 的算法,可以一次处理一张图像,使其内存消耗与样本的数量无关,极大地提升了计算和存储的效率。提出的方法是基于随机优化的,等价于批量形式的 RPCA 。确实,ORPCA 提供了一系列的子空间估计,收敛至其批量形式的最优点,所以被证明是对于稀疏的损坏是鲁棒的。另外,ORPCA 是很自然地用于动态子空间跟踪。基于子空间恢复和跟踪的仿真展示了其鲁棒性和效率上的优势。

1 简介



2 相关工作



3 构建问题

3.1 符号

向量用粗体小写字母表示,x∈Rp 表示真实的样本,没有噪声,e∈Rp 是噪声,z∈Rp 是实际的样本,z=x+e。这里 p 表示样本的维度。r 表示潜在子空间 {xi}ni=1 的内部维度。n 是样本的个数。t 是样本的索引。矩阵用大写字母表示。Z∈Rp×n 是实际观测的矩阵,其每一列 zi 表示一个样本。对任意的实矩阵 E,||E||F 表示 Frobenius 范数,||E||ℓ1=∑i,j|Eij| 表示 ℓ1 范数,将 E∈Rp×n 看作一个长向量,||E||∗=∑iσi(E) 表示核范数,也就是奇异值之和。

3.2 目标函数构建

Robust PCA (RPCA) 可以准确地估计观测样本的潜在子空间,即使样本被严重的、不稀疏的噪声破坏。非常流行的 RPCA 方法之一,Principal Component Pursuit (PCP) 方法 1 提出用于解决:将样本矩阵 Z 分解为一个低秩部分 X 代表低维的子空间,加上总体的稀疏矩阵 E 表示稀疏的损坏。在合适的条件下,PCP 保证这两项 X 和 E 可以被准确地恢复,通过

minX,E 12||Z−X−E||2F+λ1||X||∗+λ2||E||1.(1)

要求解该问题,迭代优化的方法比如 Accelerated Proximal Gradient (APG) 2 或 Augmented Lagrangian Multiplier (ALM) 3 通常被采用。然而,这些方法都是以批量的形式实现的。在优化的每一次迭代中,它们需要通过所有的样本进行 SVD 操作。所以,大量的存储的代价就出现,当其用于处理大数据时,比如网络数据,大规模图像集。

此文考虑的是 online 的 PCP 方法的实现。主要的困难是核范数紧密地结合了所有的样本,使得样本不能被分离地考虑,像典型的在线优化问题。为了克服这个,此文使用一个核范数的等价形式:一个矩阵 X 的秩最大值为 r,正如 4

||X||∗=infL∈Rp×r,R∈Rn×r{12||L||2F+12||R||2F:X=LRT}.(2)

也就是说,核范数可以明确地用低秩分解的形式表示。其最初于 5 中提出,并在 6 7 中很好地应用。在公式中,L∈Rp×r 可以被看作低秩子空间的基,R∈Rn×r 则表示样本的关于基的系数。于是,RPCA 问题可以被重写为

minX,L∈Rp×r,R∈Rn×r,E 12||Z−X−E||2F+λ12(||L||2F+||R||2F)+λ2||E||1, s.t. X=LRT.(3)

将 X 用 LRT 代入,除去等式约束,以上的问题可以等价为

minL∈Rp×r,R∈Rn×r,E 12||Z−LRT−E||2F+λ12(||L||2F+||R||2F)+λ2||E||1.(4)

尽管此目标函数并不是关于 L 和 R 凸的,此文可以证明其局部极小值就是原问题的全局的最优值。

给定一个有限的样本集 Z=[z1,⋯,zn]∈Rp×n,求解以上的问题也就是最小经验的代价函数

fn(L)≜1n∑i=1nℓ(zi,L)+λ12n||L||2F,(5)

其中,每一个样本的损失函数定义如下

ℓ(zi,L)≜minr,e 12||zi−Lr−e||22+λ12||r||22+λ2||e||1.(6)

该损失函数测量一个样本 z 基于固定的基 L 的表达误差,其中每一个样本的系数 r 和稀疏的噪声 e 通过最小化损失得到。在随机优化过程中,一般通常关心的是最小化期望的全样本的损失 [16]

f(L)≜Ez[ℓ(z,L)]=limn→∞fn(L),(7)

其中期望是通过样本 z 的分布计算的。此文首先通过建立一个替代函数,来近似期望,然后再以在线的形式优化它。

4 Online RPCA 随机优化

该算法的主要思想是设计一个随机优化的算法,最小化代价函数,每一个时间点处理一个样本。系数 r,噪声 e,基 L 被交替优化。在第 t 个时间点,可以获得基的估计 Lt,通过最小化累计的,关于之前的系数 {ri}ti=1 和稀疏噪声 {ei}ti=1 的损失。更新 Lt 的目标函数定义为

gt(L)≜1t∑i=1t(12||zi−Lri−ei||22+λ12||ri||22+λ2||ei||1)+λ12t||L||2F.(8)

这是经验的代价函数 ft(L) 的代替函数,可以证明它是一个上界 gt(L)≥ft(L) 。

算法被总结于 Algorithm 1 中。其中第一个子问题涉及一个小规模的凸问题,可以被有效地求解。具体推导见 Appendix 。为了更新基 L,采用了块坐标下降法 8 。具体来说,基 L 的每一列都是独立地更新,而同时固定其他列。

接下来的部分为理论推导省略,详见原文。

Algorithm 1 Online RPCA 随机优化

输入: {z1,⋯,zT} 观测的数据,λ1,λ2 约束系数,L0∈Rp×r,r0∈Rr,e0∈Rp 初始值,T 最大迭代次数。

for t = 1 to T do

1) 取得样本 zt;

2) 新样本计算

{rt,et}=argmin 12||zt−Lt−1r−e||22+λ12||r||22+λ2||e||1.(9)

3) 更新中间变量 At←At−1+rtrTt,Bt←Bt−1+(zt−et)rTt;

4) 计算 Lt 使用 Lt−1 使用 Algorithm 2

Lt≜argmin 12tr[LT(At+λ1I)L]−tr(LTBt).(10)

end for

Return XT=LTRTT,低秩数据矩阵,ET 稀疏噪声矩阵。

Algorithm 2 基更新步骤

输入: L=[l1,⋯,lr]∈Rp×r,A=[a1,⋯,ar]∈Rr×r,B=[b1,⋯,br]∈Rp×r。

for j= 1 to r do

A~←A+λ1I,lj←1A~j,j(bj−La~j)+lj.(11)

end for

Return L 。

5 实验



Appendix

Algorithm 1: 2) 过程推导。r 的更新公式

L=12||zt−Lt−1r−e||22+λ12||r||22+λ2||e||1,∂L∂r=LTt−1(Lt−1r+e−zt)+λ1r=0,(LTt−1Lt−1+λ1I)r=LTt−1(zt−e),r∗=(LTt−1Lt−1+λ1I)−1LTt−1(zt−e).(12)

e 的更新公式

argmine 12||e−(zt−Lt−1r)||22+λ2||e||1,e=Sλ2(zt−Lt−1r),(13)

其中 Sσ(x)=sign(x)⋅max(x−σ,0) 是一个 shrinkage 函数,用于近似求解 ℓ1 约束问题。

Algorithm 2: 过程推导。

F=12||Lrt+et−zt||22+λ12||L||2F=12[tr((Lrt)(Lrt)T)+2tr(Lrt(et−zt))+tr((et−zt)(et−zt)T)]+λ12tr(LLT)=12tr(LrtrTtLT+λ1LLT)+tr(Lrt(et−zt)T)=12tr[LT(rtrTt+λ1I)L]−tr[LT(zt−et)rTt],(14)

F=12tr(LT(At+λ1I)L)−tr(LTBt),∂F∂L=L(At+λ1I)−Bt.(15)

采用块坐标下降,其更新 L 每一列的公式为

lj+1←lj−1A~j,j(La~j−bj).(16)
E.J. Candes, X. Li, Y. Ma, and J. Wright. Robust principal component analysis? ArXiv:0912.3599, 2009.
Z. Lin, A. Ganesh, J. Wright, L.Wu, M. Chen, and Y. Ma. Fast convex optimization algorithms for exact recovery of a corrupted low-rank matrix. Computational Advances in Multi-Sensor Adaptive Processing (CAMSAP), 2009.
Z. Lin, M. Chen, and Y. Ma. The augmented lagrange multiplier method for exact recovery of corrupted low-rank matrices. arXiv preprint arXiv:1009.5055, 2010.
B. Recht, M. Fazel, and P.A. Parrilo. Guaranteed minimum-rank solutions of linear matrix equations via nuclear norm minimization. SIAM review, 52(3):471–501, 2010.
Samuel Burer and Renato Monteiro. A nonlinear programming algorithm for solving semidefinite programs via low-rank factorization. Math. Progam., 2003.
B. Recht, M. Fazel, and P.A. Parrilo. Guaranteed minimum-rank solutions of linear matrix equations via nuclear norm minimization. SIAM review, 52(3):471–501, 2010.
Jasson Rennie and Nathan Srebro. Fast maximum margin matrix factorization for collaborative prediction. In ICML, 2005.
D.P. Bertsekas. Nonlinear programming. Athena Scientific, 1999.
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息