毕设周记Ⅱ
2016-01-05 16:28
169 查看
学习熟悉R语言相关的知识,看完慕课网上R语言入门教学视频,进阶材料是《R语言实战》,随用随查。
了解学习当前主流的降维方法。
主成分分析(PCA)
将原始变量转换为一小部分反映事物主要性质的变量;
选择确定的几个方向将源高维数据投影到低维空间,降维后数据间方差最大;
事先要求解关于样本数据的协方差矩阵,继而求解特征值与特征向量;
所有样本统一对待,忽略类别属性;
线性判别分析(LDA)
投影到低维空间后的能将低维数据的数据特征拉开(类内间距最小,类间间距最大),有利于分类;
典型相关分析(CCA)
是PCA在两组变量上的推广,为每组变量寻找相应投影向量,使之在投影后的低维空间中相关性最大;
随机投影(RP)
Johnson-Lindenstrauss Lemma是RP的理论基础;
投影矩阵随机产生,减小计算开销;
如何选取合适的投影矩阵是降维效果好坏的关键;
随机投影(RP)的原理了解的差不多了,其中的一些数学细节还需要再看。
在考虑如何获取比较符合条件的高维数据集,电商的好数据没法搞到手啊,倒是有一些提供数据集的免费平台,找找看看吧,这件事目前还不处于优先考虑范畴。
可能纯用R来实现整体不太现实,不排除使用其它工具的可能,比如python。
by gromit
01/05/2016
了解学习当前主流的降维方法。
主成分分析(PCA)
将原始变量转换为一小部分反映事物主要性质的变量;
选择确定的几个方向将源高维数据投影到低维空间,降维后数据间方差最大;
事先要求解关于样本数据的协方差矩阵,继而求解特征值与特征向量;
所有样本统一对待,忽略类别属性;
线性判别分析(LDA)
投影到低维空间后的能将低维数据的数据特征拉开(类内间距最小,类间间距最大),有利于分类;
典型相关分析(CCA)
是PCA在两组变量上的推广,为每组变量寻找相应投影向量,使之在投影后的低维空间中相关性最大;
随机投影(RP)
Johnson-Lindenstrauss Lemma是RP的理论基础;
投影矩阵随机产生,减小计算开销;
如何选取合适的投影矩阵是降维效果好坏的关键;
随机投影(RP)的原理了解的差不多了,其中的一些数学细节还需要再看。
在考虑如何获取比较符合条件的高维数据集,电商的好数据没法搞到手啊,倒是有一些提供数据集的免费平台,找找看看吧,这件事目前还不处于优先考虑范畴。
可能纯用R来实现整体不太现实,不排除使用其它工具的可能,比如python。
by gromit
01/05/2016