您的位置:首页 > 其它

毕设周记Ⅱ

2016-01-05 16:28 169 查看
学习熟悉R语言相关的知识,看完慕课网上R语言入门教学视频,进阶材料是《R语言实战》,随用随查。

了解学习当前主流的降维方法。

主成分分析(PCA)

将原始变量转换为一小部分反映事物主要性质的变量;
选择确定的几个方向将源高维数据投影到低维空间,降维后数据间方差最大;
事先要求解关于样本数据的协方差矩阵,继而求解特征值与特征向量;
所有样本统一对待,忽略类别属性;

线性判别分析(LDA)

投影到低维空间后的能将低维数据的数据特征拉开(类内间距最小,类间间距最大),有利于分类;

典型相关分析(CCA)

是PCA在两组变量上的推广,为每组变量寻找相应投影向量,使之在投影后的低维空间中相关性最大;

随机投影(RP)

Johnson-Lindenstrauss Lemma是RP的理论基础;
投影矩阵随机产生,减小计算开销;
如何选取合适的投影矩阵是降维效果好坏的关键;

随机投影(RP)的原理了解的差不多了,其中的一些数学细节还需要再看。

在考虑如何获取比较符合条件的高维数据集,电商的好数据没法搞到手啊,倒是有一些提供数据集的免费平台,找找看看吧,这件事目前还不处于优先考虑范畴。

可能纯用R来实现整体不太现实,不排除使用其它工具的可能,比如python。

by gromit

01/05/2016
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: