特征工程-降维
2016-06-15 15:44
316 查看
降维
我们发现机器学习中最有趣的挑战往往会包含一些特征工程的内容。我们通过对问题本身的理解,小心谨慎的构造出一些特征,希望机器学习算法可以采纳。本次分享走相反的路线,降维—把无关或冗余的特征删掉。降维的原因:
多余的特征会影响或误导学习器。并不是所有的机器学习方法都有这种情况(例如,支持向量机就喜欢高维空间),但大多数模型在维度较小的情况下比较安全。另一个反对高维特征空间的理由是,更多特征意味着更多参数需要调整,过拟合的风险也越大。
我们用来解决问题的数据的维度可能只是虚高,真实维度可能比较小。
维度越少意味着训练越快,更多东西可以尝试,能够得到更好的结果。
如果我们想要可视化数据,就必须限制在两个或三个维度上;这就是所谓的数据可视化。
降维的目标:
对输入的数目进行削减,由此剔除数据中的噪声并提高机器学习方法的性能。降维方法
大致分为特征选择法和特征提取法。我们将展示利用统计方法(叫做相关性和互信息量)在大特征空间中进行特征选择的方式。
特征抽取试图将原始特征空间转换为一个低维特征空间。我们将使用主成分分析(principal Component Analysis, PCA)、线性判别式分析(Linear Discriminant Analysis, LDA) 和多维标度法(Multidimensional Scaling, MDS)。
主成分分析
按照数据方差最大方向调整数据。奇异值分解
矩阵分解技术中的一种, 通过对原始数据的逼近来达到降维的目的。本博文内容参考《Building Machine Learning Systems with Python》
相关文章推荐
- 用Python从零实现贝叶斯分类器的机器学习的教程
- My Machine Learning
- 机器学习---学习首页 3ff0
- Spark机器学习(一) -- Machine Learning Library (MLlib)
- 反向传播(Backpropagation)算法的数学原理
- 关于SVM的那点破事
- 也谈 机器学习到底有没有用 ?
- TensorFlow人工智能引擎入门教程之九 RNN/LSTM循环神经网络长短期记忆网络使用
- TensorFlow人工智能引擎入门教程之十 最强网络 RSNN深度残差网络 平均准确率96-99%
- TensorFlow人工智能引擎入门教程所有目录
- 如何用70行代码实现深度神经网络算法
- 量子计算机编程原理简介 和 机器学习
- 近200篇机器学习&深度学习资料分享(含各种文档,视频,源码等)
- 已经证实提高机器学习模型准确率的八大方法
- 初识机器学习算法有哪些?
- 机器学习相关的库和工具
- 10个关于人工智能和机器学习的有趣开源项目
- 机器学习实践中应避免的7种常见错误
- 机器学习常见的算法面试题总结
- 不平衡数据处理技术——RUSBoost