《西瓜书》笔记11:特征选择方法(一)
2017-08-14 16:38
351 查看
1. 子集搜索与评价
1.1 概述
从给定的特征集合中,选择出相关特征子集的过程,称为特征选择。为什么进行特征选择?
维数灾难。属性过多,选择出重要特征,后续学习减轻。从此意义上看,特征选择与降维动机相似,这两者是处理高维数据的两大主流技术。
去除不相关的特征降低学习任务的难度。抽丝剥茧留下关键因素。
特征选择不能丢失重要特征,否则导致欠拟合。给定数据集,若学习任务不同,则相关特征不同。因此无关特征,指的是与当前学习任务无关。
冗余特征:其包含的信息可从其他特征推演而来。如立方体已有特征长,宽,则底面积是冗余特征。一般的冗余特征不起作用,去除可减轻学习负担。但有时冗余特征会降低学习难度,当其恰好对应了完成学习任务所需的中间概念时,此时是有益的。
1.2 选取特征子集
从原始集合中选取一个包含了所有重要信息的特征子集。若没有任何先验知识,只能遍历所有可能子集。计算上不可行。可行:产生候选子集。评价其好坏。基于评价结果产生下一个候选子集,再对其评价。不断持续下去,直至无法找到更好的候选子集为止。
此处涉及两个环节:如何根据评价结果获取下一个候选子集?如何评价候选子集的好坏?
第一个环节:子集搜索。给定特征集合,将每个特征看作一个候选子集,对d个候选单特征子集评价,选择最优的一个,作为第一轮的集。然后在上一轮的选定集中加入一个特征,构成包含两个特征的候选子集;迭代到某轮时加一个不如不加,则停止。逐渐增加相关特征的策略为前向搜索。
类似地,还可以从完整的特征集合开始,每次去掉一个无关特征,称为后向搜索。
上述策略是贪心策略,考虑本轮最优,局部最优解。计算上可行。不穷举则不能全局最优。
第二个环节:子集评价。给定数据集D,计算属性子集A的信息增益即可。信息增益越大,意味着特征子集A包含的有助于分类的信息越多。
特征选择方法 = 特征子集搜索 + 子集评价机制
决策树算法:前向搜索 + 信息熵
实际上,决策树可用于特征选择,树节点的划分属性所组成的集合,就是选择出的特征子集。其他的特征选择方法未必像决策树这样明显,但本质上都是显示或隐式地结合了子集搜索机制和子集评价机制。
常见的特征选择方法:
过滤式 filter
包裹式 wrapper
嵌入式 embedding
具体讨论见下节。
相关文章推荐
- 《西瓜书》笔记11:特征选择方法(二)
- 《西瓜书》笔记11:特征选择与稀疏表示(三)
- 机器学习中,有哪些特征选择的工程方法?
- 结合Scikit-learn介绍几种常用的特征选择方法
- 结合Scikit-learn介绍几种常用的特征选择方法
- 文本分类入门(十一)特征选择方法之信息增益
- 机器学习中的特征——特征选择的方法以及注意点
- 特征选择方法学习笔记(一)
- 特征选择方法之TF-IDF、DF
- 特征选择方法总结
- 机器学习中的特征——特征选择的方法以及注意点
- (干货)结合Scikit-learn介绍几种常用的特征选择方法
- 【Python-ML】SKlearn库特征选择-随机森林方法
- 结合Scikit-learn介绍几种常用的特征选择方法
- 特征选择方法之信息增益
- 机器学习之(四)特征工程以及特征选择的工程方法
- 特征选择方法之信息增益
- 文本分类入门-特征选择方法之信息增益
- 干货:结合Scikit-learn介绍几种常用的特征选择方法
- 特征选择方法之信息增益