您的位置：首页 > 运维架构

[卡内基梅隆大学]10-725: Optimization Fall 2012 -Lecture 17: October 23 构造对偶函数

2016-11-16 16:59 267 查看

问题1：求解l1,∞范数子问题。

即求解在文献2中，有公式(10):

minw12||w−v||22+λ^||w||∞问题1因为二次函数的共轭是仍然是二次函数，l∞范数的共轭是l1障碍函数。因此得到公式（10）的对偶形式为如下公式(11)：

mina12||a−v||22s.t.||a||1≤λ^

其中a=v−w.

公式(10)到公式（11）是怎么推导的呢？（由于α打不出矢量的形式（粗体），我们使用a代替）

疑问：一说到函数的对偶，一般就是拉格朗日对偶，即有约束的函数才有对偶形式，公式(10）是无约束的情况，如何求解其对偶函数呢？

突破口:将无约束的问题转换为有约束的问题。从题中可以看到，公式（11）多了一个等式条件：a=v−w.

解：

参照文献1中17.4.2 Dual construction via conjugates of pairs of functions

我们将公式(10)，引入约束a=v−w，则w=v−a,将其带入公式(10)中的第二个公式得到；

minw，a12||w−v||22+λ^||v−a||∞s.t.w=v−a

写成拉格朗日的形式为：

g(u)=minw，a12||w−v||22+λ^||v−a||∞+uT(v−w−a)

进行变量的分解：

g(u)=minw12||w−v||22−uTw+minaλ^||v−a||∞−uT(a−v)

转换为求最大值：

g(u)=−maxwuTw−12||w−v||22−maxauT(a−v)−λ^||v−a||∞

进行变量的替换，化简第二项：

g(u)=−maxwuTw−12||w−v||22−maxa−uT(v−a)−λ^||v−a||∞g(u)=−maxwuTw−12||w−v||22−maxw−uT(w)−λ^||w||∞

因此，由共轭函数的定义，上述可以表示成共轭形式，其中令f1(w)=12||w−v||22,f2(a)=λ^||a||∞：

maxug(u)=maxu−f∗1(u)−f∗2(−u)

即为：

argminug(u)=argminuf∗1(u)+f∗2(−u)

由2范数的平方的共轭函数是其本身，范数的共轭函数是其对偶范数单位球的示性函数[参见凸优化102页，例3.26]。并且由范数的性质：

||−x||=||x||

我们最终得到公式（11）。

还有一点是，函数f(x)=||x||的共轭函数是：

f∗(y)={0∞||y||∗≤1其他情况

那么函数f(x)=λ||x||的共轭函数是:

f∗(y)={0∞||y||∗≤λ其他情况

其可以通过参考：http://blog.csdn.net/raby_gyl/article/details/53178467

中的一维情况来理解（此时y,λ均相当于线的斜率）。

问题2：求解l1,2范数子问题

即求解问题：

minw12||w−v||22+λ^||w||2问题2

可能可行的求解方法：上面是关于w的二次函数，如果我们直接对f(w)关于w求偏导，然后令其等于0.

∂f(w)∂w=w−v+λ^w||w||2=0

显然，通过上的公式我们很难化简出来w.

可行的方法: 和上面类似，我们引入一个等式约束，然后利用求解带有等式约束的拉格朗日对偶函数。

等式约束：

a=v−w

同上面类似，范数平方的共轭是其本身，而范数的共轭是对偶范数在单位球上的示性函数，并且将最大化问题转化为共轭的问题，因此转化为下面的优化问题：

mina12||a−v||22s.t.||a||2≤λ^

其中a=v−w。

很显然，如果||v||2≤λ^，则a=v,则w=v−v=0。

在观察一下公式问题2，假定存在一个w∗使得问题2最小化，并且w∗与v不共向，即不满足:

w∗≠kv,则必然存在另外一个向量w0，其大小和w∗相同，方向和v相同，即满足：

w0=v||v||2∗||w∗||.

那么必有f(w0)<f(w∗)，与已知相矛盾，所以可得最优解w∗与v同方向，即满足:

w∗=kv

那么a也与v同向，即满足:

a=k′v

如上图，向量b=c-a,令向量c代表v,向量a代表w,那么我们总能找到一个a’,其大小与a相同，方向与c同向，可知道|c-a’|<|c-a|=|b|.

现在我们已知的条件有:

minw12||a−v||22s.t.||a||2≤λ^a=k′v

我们可以通过画图的方式简单的求解：

点v或者说向量v到圆内最近投影肯定在圆的边界上，并且投影后的矢量与v同向，即图中红色的点所示，其大小为圆的半径，其方向为v的方向，因此有：

a=尺度∗方向=λ^v||v||2

则w=v−λ^v||v||.

因此最后的最优解为：

w∗=⎧⎩⎨⎪⎪(1−λ^||v||2)v0||v||2>λ^||v||2≤λ^

参考文献：

1. 10-725: Optimization Fall 2012

Lecture 17: October 23

Lecturer: Geoff Gordon/Ryan Tibshirani Scribes: Yifei Ma, Mahdi Pakdaman Naeini

2. Accelerated Gradient Method for Multi-Task Sparse Learning Problem

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航