您的位置：首页 > 其它

机器学习——特征工程之主成分分析PCA

2017-10-10 22:14 381 查看

一、PCA简介

1、定义：主成分分析是一种统计方法，通过正交变换将一组可能存在相关性的变量转换为线性不相关，转换后的这组变量称为主成分。

2、主要应用场景：数据压缩；消除冗余；消除数据噪声；数据降维，可视化

3、理论基础：最大投影方差理论、最小投影距离理论和坐标轴相关度理论

4、直观理解：找出数据里最主要的成分，代替原始数据并使损失尽可能的小

a) 样本点到超平面的距离足够近

b) 样本点在这个超平面的投影尽可能的分开

二、PCA的推导：基于最小投影距离

1、标准化后的m个数据

2、新坐标系

，w是标准正交基

3、数据在

维中的投影

，转换后的变量在原空间中的表示

4、目标优化函数

5、公式简化

则目标函数等价于

6、求解变换矩阵W

a) 由拉格朗日乘子法可得

b) 对W求导取零求极值，有

，即

c) 可知W为的特征向量组成的矩阵，

为特征值

三、PCA的推导：基于最大投影方差

1、符号表义如（二）中所示

2、任意样本

，新坐标系中的投影

，投影方差为

，最大投影方差的目标函数如下

3、求解变换矩阵W（过程同二）：

四、PCA算法流程

1、中心化所有样本数据（标准化）

2、计算样本集的协方差矩阵

3、对矩阵进行特征值分解，获得特征值和特征向量

4、将特征值按照从大到小的顺序排序，选择其中最大的k个特征值对应的特征向量，标准化后组成变换矩阵W

5、对每个样本进行投影变换以获得新（压缩后）的样本集

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航

添加评论
分享网址
分享文章
返回顶部