[模式识别].(希腊)西奥多里蒂斯<第四版>笔记5之__特征选取
2014-07-20 09:45
309 查看
1,引言
有关模式识别的一个主要问题是维数灾难。我们将在第7章看到维数很容易变得很大。
降低维数的必要性有几方面的原因。计算复杂度是一个方面。另一个有关分类器的泛化性能。
因此,本章的主要任务是:在尽可能保留特征的分类判别信息前提下,来选择重要的和维数少的特征量。这个过程被称作特征选择或者特征降维。
定量描述来讲,选择的特征应该使得类内距离减小,类间距离增大。
一些文献表述中使用feature extraction,而不是我们本文使用的featureselection。这将会和第7章的一些描述有些冲突。
2,预处理
① 离群值删除(outlier removal)
离群值定义为偏离相关变量均值较大的点
② 数据归一化
许多特征值位于不同的动态阈中,而大的特征值对损耗函数会有较大影响。所以归一化到相似阈值会有帮助。
③ 缺失数据
一些特征会从特征量量中缺失。例如遥感在特定区域被其他传感器覆盖的情况就是如此。
3,峰值现象
4,基于统计假设的特征选取
5,接收操作(THE RECEIVER OPERATING)特性曲线
6,类可分性度量
7,特征子集选取
8,最优特征代(OPTIMAL FEATURE GENERATION)
9,神经网络和特征选取
10,一个提示泛化理论
11,贝叶斯信息标准
有关模式识别的一个主要问题是维数灾难。我们将在第7章看到维数很容易变得很大。
降低维数的必要性有几方面的原因。计算复杂度是一个方面。另一个有关分类器的泛化性能。
因此,本章的主要任务是:在尽可能保留特征的分类判别信息前提下,来选择重要的和维数少的特征量。这个过程被称作特征选择或者特征降维。
定量描述来讲,选择的特征应该使得类内距离减小,类间距离增大。
一些文献表述中使用feature extraction,而不是我们本文使用的featureselection。这将会和第7章的一些描述有些冲突。
2,预处理
① 离群值删除(outlier removal)
离群值定义为偏离相关变量均值较大的点
② 数据归一化
许多特征值位于不同的动态阈中,而大的特征值对损耗函数会有较大影响。所以归一化到相似阈值会有帮助。
③ 缺失数据
一些特征会从特征量量中缺失。例如遥感在特定区域被其他传感器覆盖的情况就是如此。
3,峰值现象
4,基于统计假设的特征选取
5,接收操作(THE RECEIVER OPERATING)特性曲线
6,类可分性度量
7,特征子集选取
8,最优特征代(OPTIMAL FEATURE GENERATION)
9,神经网络和特征选取
10,一个提示泛化理论
11,贝叶斯信息标准
相关文章推荐
- [模式识别].(希腊)西奥多里蒂斯<第四版>笔记5之__特征选取
- [模式识别].(希腊)西奥多里蒂斯<第四版>笔记1之__模式识别相关领域
- [模式识别].(希腊)西奥多里蒂斯<第四版>笔记11之__聚类:基本概念
- [模式识别].(希腊)西奥多里蒂斯<第四版>笔记9之__context-based classification
- [模式识别].(希腊)西奥多里蒂斯<第四版>笔记10之__监督学习:后记
- [模式识别].(希腊)西奥多里蒂斯<第四版>笔记7之__feature generation (2)
- [模式识别].(希腊)西奥多里蒂斯<第四版>笔记4之__非线性分类器
- [模式识别].(希腊)西奥多里蒂斯<第四版>笔记2之__基于贝叶斯决策理论的分类器
- [模式识别].(希腊)西奥多里蒂斯<第四版>笔记8之__模板匹配
- [模式识别].(希腊)西奥多里蒂斯<第四版>笔记8它__模板匹配
- [模式识别].(希腊)西奥多里蒂斯<第四版>笔记3之__线性分类器
- [模式识别].(希腊)西奥多里蒂斯<第四版>笔记6之__feature generation (1):数据转换和降维
- <C++Primer>第四版 阅读笔记 第三部分 “类和数据抽象”
- <C++Primer>第四版 阅读笔记 第一部分 “基本语言”
- <C++Primer>第四版 阅读笔记 第四部分 “面向对象编程与泛型编程”
- <C++Primer>第四版 阅读笔记 第二部分 “容器和算法”
- linux 学习心得笔记<初级>第三篇
- <Effectives STL>笔记之在STL容器中删除元素的方法选择
- C语言中的位运算&结构体浅析 — <编程之美>1.2学习笔记
- <<Accelerated C# 2008>>笔记3容器&&数组&&迭代器