【线性代数公开课MIT Linear Algebra】 第十五课 Ax=b与投影矩阵
2015-11-02 22:23
656 查看
本系列笔记为方便日后自己查阅而写,更多的是个人见解,也算一种学习的复习与总结,望善始善终吧~
老师说要让这一节课 immortal 名垂青史,不过明显这节课依然还是前菜。
就是我们初中学的如何将一条线段投影到另一条线段上啦~
那…怎么突然讲这个?
故事还要从Ax=bAx=b无解的时候说起,当其无解的时候,我们求的解是什么?
我们想要的是“最优解”,即这个解对于原方程偏差error 最小,我们知道Ax=bAx=b有解时bb在AA的column space当中,当我们取b在column space中的投影b^\hat b时,求解Ax=b^Ax=\hat b此时的解的error最小。(猜测b^\hat b与bb的距离最小,不过不知道如何定义距离)
![](https://oscdn.geek-share.com/Uploads/Images/Content/202011/21/1034c561cbb300f47b5690d8eeb3ba89)
向量b投影到a上,p是其投影,e就是b到a的距离,就是偏差error向量b投影到a上,p是其投影,e就是b到a的距离,就是偏差error
a⊥e=a⊥(b−xa)a\perp e=a\perp (b-xa)
⇒aT(b−xa)=0\Rightarrow a^T(b-xa)=0
⇒aTb=xaTa\Rightarrow a^Tb=xa^Ta
⇒x=\Rightarrow x=aTbaTa{a^Tb}\over{a^Ta}
于是p=ax=ap=ax=aaTbaTa{a^Tb}\over{a^Ta}==aaTaTa{aa^T}\over{a^Ta}bb
看着有没有一点眼熟,ataa^ta是一个常数aaTaa^T是一个矩阵,合起来就是一个投影矩阵PP,p=Pbp=Pb代表bb被投影成pp
PP就是这节课的主角——投影矩阵
PP有一些显而易见的性质:
PP是一个对称矩阵symmetric matrix,因为我们知道aaTaa^T是一个对称矩阵
对投影好的vector pp再次投影结果不变,即PPb=p=PbPPb=p=Pb,故P2=PP^2=P
对于此处的PP来说,任意向量都会被其投影到向量aa上,说明PP的线性组合linear combination全部在aa这个space当中,所以aa是PP的column space
![](https://oscdn.geek-share.com/Uploads/Images/Content/202011/21/e743124c3b4666290e097881b7e6700c)
a1,a2为平面的基basics,构成了一个space,将其作为A的columnspace,b的投影为p,e为偏差,由于p在space当中,所以可以由a1,a2线性组合得到,所以p=x^1a1+x^2a2=Ax^a_1,a_2为平面的基basics,构成了一个space,将其作为A的column space,b的投影为p,e为偏差,由于p在space当中,所以可以由a_1,a_2线性组合得到,所以p=\hat x_1a_1+\hat x_2a_2=A\hat x
老样子利用垂直的性质做:
e⊥a1且e⊥a2,e=b−p=b−Ax^e\perp a_1 且 e\perp a_2,e=b-p=b-A\hat x
所以:
![](https://oscdn.geek-share.com/Uploads/Images/Content/202011/21/7e05eb124504632754b6558e7104b615)
和前面二维空间的很像有木有!!
从矩阵角度来看ee在ATA^T的null space中,通过之前的学习,我们知道ATA^T的null space和AA的column space垂直,所以ee垂直于AA的column space
将上图中式子化开得
ATAx^=ATb⇒x^=(ATA)−1ATbA^TA\hat x=A^Tb\Rightarrow \hat x=(A^TA)^{-1}A^Tb
像之前一样我们关注一下投影矩阵PP
p=Ax^=A(ATA)−1ATb=Pbp=A\hat x=A(A^TA)^{-1}A^Tb=Pb
⇒P=A(ATA)−1AT\Rightarrow P=A(A^TA)^{-1}A^T
注意:这里(ATA)−1(A^TA)^{-1}无法化简,因为我们说了Ax=bAx=b无解,所以AA不可逆
和在二维当中一样PP有一些相似的性质:
PT=PP^T=P
P2=PP^2=P
这二个性质都很好推导,不写了。
![](https://oscdn.geek-share.com/Uploads/Images/Content/202011/21/f0df813bd3e1c36d89d3f5064e054f2f)
实际上这里我们的直线是无解的,就是说我们找不到一条直线完全通过这三个点,实际上就是说我们根据输入输出可以写出三个方程,但是无解,这就是一个Ax=bAx=b的问题,我们需要求“最优解”。
看来老师大概想告诉我们:何为“最优”,即我们的目标是什么?很明显是使得偏差error最小,这里我们要用的就是使得偏差error的平方square最小least,就是这样~翻译成最小二乘反而有点影响人理解了。
其他的就是下一节课的内容咯~
PS:另一位仁兄的笔记
http://blog.csdn.net/suqier1314520/article/details/13630933
老师说要让这一节课 immortal 名垂青史,不过明显这节课依然还是前菜。
从投影说起
投影?what?就是我们初中学的如何将一条线段投影到另一条线段上啦~
那…怎么突然讲这个?
故事还要从Ax=bAx=b无解的时候说起,当其无解的时候,我们求的解是什么?
我们想要的是“最优解”,即这个解对于原方程偏差error 最小,我们知道Ax=bAx=b有解时bb在AA的column space当中,当我们取b在column space中的投影b^\hat b时,求解Ax=b^Ax=\hat b此时的解的error最小。(猜测b^\hat b与bb的距离最小,不过不知道如何定义距离)
投影矩阵
二维上的投影
既然问题的关键在于投影,那么我们先从简单的开始向量b投影到a上,p是其投影,e就是b到a的距离,就是偏差error向量b投影到a上,p是其投影,e就是b到a的距离,就是偏差error
a⊥e=a⊥(b−xa)a\perp e=a\perp (b-xa)
⇒aT(b−xa)=0\Rightarrow a^T(b-xa)=0
⇒aTb=xaTa\Rightarrow a^Tb=xa^Ta
⇒x=\Rightarrow x=aTbaTa{a^Tb}\over{a^Ta}
于是p=ax=ap=ax=aaTbaTa{a^Tb}\over{a^Ta}==aaTaTa{aa^T}\over{a^Ta}bb
看着有没有一点眼熟,ataa^ta是一个常数aaTaa^T是一个矩阵,合起来就是一个投影矩阵PP,p=Pbp=Pb代表bb被投影成pp
PP就是这节课的主角——投影矩阵
PP有一些显而易见的性质:
PP是一个对称矩阵symmetric matrix,因为我们知道aaTaa^T是一个对称矩阵
对投影好的vector pp再次投影结果不变,即PPb=p=PbPPb=p=Pb,故P2=PP^2=P
对于此处的PP来说,任意向量都会被其投影到向量aa上,说明PP的线性组合linear combination全部在aa这个space当中,所以aa是PP的column space
推广到多维
接下来我们考虑多维的情况,实际的去考虑Ax=bAx=ba1,a2为平面的基basics,构成了一个space,将其作为A的columnspace,b的投影为p,e为偏差,由于p在space当中,所以可以由a1,a2线性组合得到,所以p=x^1a1+x^2a2=Ax^a_1,a_2为平面的基basics,构成了一个space,将其作为A的column space,b的投影为p,e为偏差,由于p在space当中,所以可以由a_1,a_2线性组合得到,所以p=\hat x_1a_1+\hat x_2a_2=A\hat x
老样子利用垂直的性质做:
e⊥a1且e⊥a2,e=b−p=b−Ax^e\perp a_1 且 e\perp a_2,e=b-p=b-A\hat x
所以:
和前面二维空间的很像有木有!!
从矩阵角度来看ee在ATA^T的null space中,通过之前的学习,我们知道ATA^T的null space和AA的column space垂直,所以ee垂直于AA的column space
将上图中式子化开得
ATAx^=ATb⇒x^=(ATA)−1ATbA^TA\hat x=A^Tb\Rightarrow \hat x=(A^TA)^{-1}A^Tb
像之前一样我们关注一下投影矩阵PP
p=Ax^=A(ATA)−1ATb=Pbp=A\hat x=A(A^TA)^{-1}A^Tb=Pb
⇒P=A(ATA)−1AT\Rightarrow P=A(A^TA)^{-1}A^T
注意:这里(ATA)−1(A^TA)^{-1}无法化简,因为我们说了Ax=bAx=b无解,所以AA不可逆
和在二维当中一样PP有一些相似的性质:
PT=PP^T=P
P2=PP^2=P
这二个性质都很好推导,不写了。
引申:最小二乘 least squares拟合直线
这里老师引入一个问题:我们如何通过三个点拟合出一条直线:实际上这里我们的直线是无解的,就是说我们找不到一条直线完全通过这三个点,实际上就是说我们根据输入输出可以写出三个方程,但是无解,这就是一个Ax=bAx=b的问题,我们需要求“最优解”。
看来老师大概想告诉我们:何为“最优”,即我们的目标是什么?很明显是使得偏差error最小,这里我们要用的就是使得偏差error的平方square最小least,就是这样~翻译成最小二乘反而有点影响人理解了。
其他的就是下一节课的内容咯~
PS:另一位仁兄的笔记
http://blog.csdn.net/suqier1314520/article/details/13630933
相关文章推荐
- UIStepper
- django rest framework
- Shiro使用和原理分析---2
- hdoj 2023 求平均成绩【基础题】
- 二叉搜索树的基本操作
- sort自定义cmp函数
- UISleder
- 【转】Oracle之物化视图
- 问题解决:SqlParameterCollection只接受非空的SqlParameter类型对象,不接受SqlParameter[]对象
- poj Drainage Ditches 1273 (最大流入门)
- Java并发小结,先验条件、后验条件等概念
- 关于文件-NIO
- UIView
- UIPageControl
- 34岁,重新开始!
- Eclipse搜索文件名,以及搜索文件中特定的内容
- RestTemplate 调用
- POJ 3667 Hotel 【线段树 区间合并】
- 索引(转)
- Spark为啥比hadoop速度快?