您的位置:首页 > 其它

《西瓜书》笔记11:特征选择方法(一)

2017-08-14 16:38 351 查看

1. 子集搜索与评价

1.1 概述

从给定的特征集合中,选择出相关特征子集的过程,称为特征选择。

为什么进行特征选择?

维数灾难。属性过多,选择出重要特征,后续学习减轻。从此意义上看,特征选择与降维动机相似,这两者是处理高维数据的两大主流技术。

去除不相关的特征降低学习任务的难度。抽丝剥茧留下关键因素。

特征选择不能丢失重要特征,否则导致欠拟合。给定数据集,若学习任务不同,则相关特征不同。因此无关特征,指的是与当前学习任务无关。

冗余特征:其包含的信息可从其他特征推演而来。如立方体已有特征长,宽,则底面积是冗余特征。一般的冗余特征不起作用,去除可减轻学习负担。但有时冗余特征会降低学习难度,当其恰好对应了完成学习任务所需的中间概念时,此时是有益的。

1.2 选取特征子集

从原始集合中选取一个包含了所有重要信息的特征子集。若没有任何先验知识,只能遍历所有可能子集。计算上不可行。

可行:产生候选子集。评价其好坏。基于评价结果产生下一个候选子集,再对其评价。不断持续下去,直至无法找到更好的候选子集为止。

此处涉及两个环节:如何根据评价结果获取下一个候选子集?如何评价候选子集的好坏?

第一个环节:子集搜索。给定特征集合,将每个特征看作一个候选子集,对d个候选单特征子集评价,选择最优的一个,作为第一轮的集。然后在上一轮的选定集中加入一个特征,构成包含两个特征的候选子集;迭代到某轮时加一个不如不加,则停止。逐渐增加相关特征的策略为前向搜索。

类似地,还可以从完整的特征集合开始,每次去掉一个无关特征,称为后向搜索。

上述策略是贪心策略,考虑本轮最优,局部最优解。计算上可行。不穷举则不能全局最优。

第二个环节:子集评价。给定数据集D,计算属性子集A的信息增益即可。信息增益越大,意味着特征子集A包含的有助于分类的信息越多。





特征选择方法 = 特征子集搜索 + 子集评价机制

决策树算法:前向搜索 + 信息熵

实际上,决策树可用于特征选择,树节点的划分属性所组成的集合,就是选择出的特征子集。其他的特征选择方法未必像决策树这样明显,但本质上都是显示或隐式地结合了子集搜索机制和子集评价机制。

常见的特征选择方法:

过滤式 filter

包裹式 wrapper

嵌入式 embedding

具体讨论见下节。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: