您的位置:首页 > 其它

周志华 《机器学习》之 第十一章(特征选择与稀疏学习)概念总结

2016-08-29 17:53 621 查看
在做图像识别的程序中,我们经常遇到特征这个词语,也常有特征提取作为识别的前序工作,通常我们可以根据提取到的特征,根据应有特征进行对比,最终完成对物体缺陷等的识别。那么在提取到的众多特征中,如何有效的提取到能很好进行分类的特征呢?在识别过程中,往往通过经验总结,或直接的抽象特征作为判别条件。在机器学习中,周老师讲到的特征选择,我想也是对属性空间中所有特征,进行一个筛选,选择出有效特征。我想我们也可以理解成一种降维方法。去除干扰特征或无效特征的手段。因此在机器学习中我们可以认为特征选择是一个数据预处理过程,完成特征选择后,再进行训练学习器,最终完成良好的学习过程。

1、子集搜索与评价

特征:在给定的样本集中属性,我们将属性称为特征

相关特征:给定的属性集对当前学习任务有用的属性称为相关特征

无关特征:给定的属性集对当前学习任务无用的属性称为无关特征

特征选择:在给定的特征集合中选择出相关特征子集的过程,称为特征选择

冗余特征:所包含的信息能从其他特征中推演出来

前向搜索:给定一个子集,采用逐渐增加一个相关特征的策略称为前向搜索

后向搜索:从一个完整的特征集合开始,每次尝试去掉一个无关特征,这样逐渐减少特征的策略称为后向搜索

双向搜索:如果将前向搜索和后向搜索结合起来,每一次逐渐增加选定相关特征(这些特征在后续轮中将确定不会被去除),同时减少无关特征,这样的策略称为双向搜索

常见的特征选择方法可分为三类:过滤式、包裹式、嵌入式。

2、过滤式选择

过滤式方法先对数据集进行特征选择,然后再训练学习器,特征选择过程与后续学习器无关。这相当于先用特征选择过程对初始特征进行“过滤”,再用过滤后的特征来训练模型。

3、包裹式选择

包裹式特征选择直接把最终将要使用的学习器的性能作为特征子集的评价准则。也就是在每次进行特征选择后,将新的特征集放入学习器中进行训练,通过训练的结果来对特征选择进行评价,如此进行循环。

4、嵌入式选择与L1正则化

嵌入式选择:过滤式和包裹式特征选择,有明显的特征选择过程和训练学习器的过程。而嵌入式选择则是将特征选择过程与学习器训练过程融合为一体,两者在同一个优化过程中完成,也就是在学习器训练过程中自动的进行特征选择。

5、稀疏表示与字典学习

加入将一个数据集用矩阵进行表示,其中每一行代表一个样本,每列则对应于一个特征,特征选择所考虑的问题是特征具有“稀疏性”,即矩阵中的许多列与当前学习任务无关,通过特征选择去除这些列,则学习器训练过程仅需要较小的矩阵上进行,则学习任务难度将会所有降低,设计的计算和存储开销也会减少,因而学得的模型的可解释性也会提高。

如果给定的数据集是稠密的,如果利用稀疏性的优越性呢?因此就考虑是否可以将其数据集转化为稀疏表示的形式。周老师书中提到字典学习的方法来解决这种问题。

6、压缩感知

奈奎斯特采样定理

压缩感知分为 感知测量和重构恢复两个阶段

感知测量:关注如何将原始信号进行处理以获得稀疏样本表示

重构恢复:关注的是如何基于稀疏性从少量观测中恢复原信号
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息