您的位置：首页 > 其它

《西瓜书》笔记11：特征选择方法（一）

2017-08-14 16:38 351 查看

1. 子集搜索与评价

1.1 概述

从给定的特征集合中，选择出相关特征子集的过程，称为特征选择。

为什么进行特征选择？

维数灾难。属性过多，选择出重要特征，后续学习减轻。从此意义上看，特征选择与降维动机相似，这两者是处理高维数据的两大主流技术。

去除不相关的特征降低学习任务的难度。抽丝剥茧留下关键因素。

特征选择不能丢失重要特征，否则导致欠拟合。给定数据集，若学习任务不同，则相关特征不同。因此无关特征，指的是与当前学习任务无关。

冗余特征：其包含的信息可从其他特征推演而来。如立方体已有特征长，宽，则底面积是冗余特征。一般的冗余特征不起作用，去除可减轻学习负担。但有时冗余特征会降低学习难度，当其恰好对应了完成学习任务所需的中间概念时，此时是有益的。

1.2 选取特征子集

从原始集合中选取一个包含了所有重要信息的特征子集。若没有任何先验知识，只能遍历所有可能子集。计算上不可行。

可行：产生候选子集。评价其好坏。基于评价结果产生下一个候选子集，再对其评价。不断持续下去，直至无法找到更好的候选子集为止。

此处涉及两个环节：如何根据评价结果获取下一个候选子集？如何评价候选子集的好坏？

第一个环节：子集搜索。给定特征集合，将每个特征看作一个候选子集，对d个候选单特征子集评价，选择最优的一个，作为第一轮的集。然后在上一轮的选定集中加入一个特征，构成包含两个特征的候选子集；迭代到某轮时加一个不如不加，则停止。逐渐增加相关特征的策略为前向搜索。

类似地，还可以从完整的特征集合开始，每次去掉一个无关特征，称为后向搜索。

上述策略是贪心策略，考虑本轮最优，局部最优解。计算上可行。不穷举则不能全局最优。

第二个环节：子集评价。给定数据集D，计算属性子集A的信息增益即可。信息增益越大，意味着特征子集A包含的有助于分类的信息越多。

特征选择方法 = 特征子集搜索 + 子集评价机制

决策树算法：前向搜索 + 信息熵

实际上，决策树可用于特征选择，树节点的划分属性所组成的集合，就是选择出的特征子集。其他的特征选择方法未必像决策树这样明显，但本质上都是显示或隐式地结合了子集搜索机制和子集评价机制。

常见的特征选择方法：

过滤式 filter

包裹式 wrapper

嵌入式 embedding

具体讨论见下节。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航