一个关于PCA的疑问
2015-06-10 21:21
225 查看
我们知道PCA干的事情是把n维的样本投影到k维,同时丢失的信息能够达到最少。
为什么说principal component是covariance matrix的特征值中最大的前k个对应的特征向量上的分量?
解释:
对于一组样本数据,如果它们的方差越大,说明它们蕴含的信息越多,可以参考熵的概念理解。那么PCA需要做的事情就是当投影到k维的时候,每个维度上的方差都能够越大越好。这要怎么实现呢?
需要注意的是,在样本进行投影的时候,需要对数据进行feature scaling,即x_j = (x_j -σ_j)/μ_j,j表示第j个feature,这样可以使的样本的均值为0.
左边是样本投影到u上的方差,因为原样本的均值为0,所以投影后的均值也为0,求方差那一项的括号里面就没有减去均值那一部分,该项用λ表示。最右边的括号内的部分为原样本的协方差,大小为n*n,用∑表示。(x^(i)是第i个样本,是n*1的向量)
注意到u是单位向量,因此u乘以u的Transpose等于1.因此对上式进一步推导得到uλ=λu=uu.T * ∑u = ∑u。
根据特征值和特征向量的定义,一个向量u与矩阵∑相乘,∑u,存在一个值λ,有λu=∑u,则λ是∑的特征值,u是∑的特征向量。
又因为根据λ是上式左边的部分,代表着投影到u上的方差,而我们又希望方差越大越好,因此选择λ里面值前k大对应的特征向量代表principal
component的方向,是正确的。
Python的代码:
import numpy as np
np.cov(X)#covariance, X:ndarray-like
from scipy import eig
eig(np.cov(X))#return eigenvalue and eigenvectors
为什么说principal component是covariance matrix的特征值中最大的前k个对应的特征向量上的分量?
解释:
对于一组样本数据,如果它们的方差越大,说明它们蕴含的信息越多,可以参考熵的概念理解。那么PCA需要做的事情就是当投影到k维的时候,每个维度上的方差都能够越大越好。这要怎么实现呢?
需要注意的是,在样本进行投影的时候,需要对数据进行feature scaling,即x_j = (x_j -σ_j)/μ_j,j表示第j个feature,这样可以使的样本的均值为0.
左边是样本投影到u上的方差,因为原样本的均值为0,所以投影后的均值也为0,求方差那一项的括号里面就没有减去均值那一部分,该项用λ表示。最右边的括号内的部分为原样本的协方差,大小为n*n,用∑表示。(x^(i)是第i个样本,是n*1的向量)
注意到u是单位向量,因此u乘以u的Transpose等于1.因此对上式进一步推导得到uλ=λu=uu.T * ∑u = ∑u。
根据特征值和特征向量的定义,一个向量u与矩阵∑相乘,∑u,存在一个值λ,有λu=∑u,则λ是∑的特征值,u是∑的特征向量。
又因为根据λ是上式左边的部分,代表着投影到u上的方差,而我们又希望方差越大越好,因此选择λ里面值前k大对应的特征向量代表principal
component的方向,是正确的。
Python的代码:
import numpy as np
np.cov(X)#covariance, X:ndarray-like
from scipy import eig
eig(np.cov(X))#return eigenvalue and eigenvectors
相关文章推荐
- java
- WebService中使用枚举类型
- Building MFC application with /MD[d] (CRT dll version)requires MFC shared dll version~~~~
- ORACLE单字符函数的函数
- 移动互联网对传统软件公司的冲击
- UIViewController中的viewDidLoad实现和调用
- 决策树之ID3算法
- mac平台下面nodejs环境搭配
- do{...}while(0)的作用
- sendmai和dovecot的简单邮件服务器
- LeftRightContext API
- Scala学习笔记(2)
- bzoj 1222: [HNOI2001]产品加工 dp
- bzoj 1222: [HNOI2001]产品加工 dp
- MSP430仿真器降级失败的解决办法
- 写一个程序用来查询手机号码的归属地(使用的是HttpURLConnection的get提交方式)
- HMM API
- 渣渣ACM日记——1045-Fire Net (HDOJ)
- Training:筛选法与预处理
- Django知识点总结(一)