归一化用于文本分类中的特征向量计算
2015-03-07 16:10
274 查看
归一化,也即数据标准化。是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。以下是两种归一化方法:
一、min-max标准化(Min-Max Normalization)
也称为离差标准化,是对原始数据的线性变换,使结果值映射到[0 - 1]之间。归一化映射如下:
f:x→y=x−xminxmax−xminf: x\to y=\frac {x-x_{min}} {x_{max}-x_{min}}
二. 向量求模标准化
如 a⃗ =(1,2,3)\vec a=(1,2,3),计算得模为|a⃗ |=12+22+3212+22+32√=3.742|\vec a|=\frac{1^2+2^2+3^2}{\sqrt {1^2+2^2+3^2}}=3.742,则a⃗ new=(13.742,23.742,33.742)\vec a_{new}=(\frac 1 {3.742},\frac 2{3.742},\frac 3{3.742}).
一、min-max标准化(Min-Max Normalization)
也称为离差标准化,是对原始数据的线性变换,使结果值映射到[0 - 1]之间。归一化映射如下:
f:x→y=x−xminxmax−xminf: x\to y=\frac {x-x_{min}} {x_{max}-x_{min}}
二. 向量求模标准化
如 a⃗ =(1,2,3)\vec a=(1,2,3),计算得模为|a⃗ |=12+22+3212+22+32√=3.742|\vec a|=\frac{1^2+2^2+3^2}{\sqrt {1^2+2^2+3^2}}=3.742,则a⃗ new=(13.742,23.742,33.742)\vec a_{new}=(\frac 1 {3.742},\frac 2{3.742},\frac 3{3.742}).
相关文章推荐
- 文本分类入门(番外篇)特征选择与特征权重计算的区别
- 文本分类入门(番外篇)特征选择与特征权重计算的区别
- 文本分类入门(番外篇)特征选择与特征权重计算的区别
- 分类问题 特征向量的归一化方法
- 卡方检验用于文本分类中的特征提取
- 文本分类入门(番外篇)特征选择与特征权重计算的区别
- (6)文本挖掘(三)——文本特征TFIDF权重计算及文本向量空间VSM表示
- 文本分类入门(番外篇)特征选择与特征权重计算的区别
- [教程] 文本分类入门(番外篇)特征选择与特征权重计算的区别
- 文本分类入门(番外篇)特征选择与特征权重计算的区别
- 文本分类入门:特征选择算法之开方检验、信息增益;特征选择与特征权重计算的区别
- (6)文本挖掘(三)——文本特征TFIDF权重计算及文本向量空间VSM表示
- Spark2.0 特征提取、转换、选择之二:特征选择、文本处理,以中文自然语言处理(情感分类)为例
- 征值和特征向量的几何意义、计算及其性质
- 用于分类/特征提取的CNN结构设计方法总结
- 什么是特征向量,特征值,矩阵分解 分类: 杂文 2014-12-11 15:14 83人阅读 评论(0) 收藏
- FastText 词向量与文本分类
- 实现文本自动分类的基础----Term频率计算方法
- 文本分类学习笔记(3)- 特征提取
- 文本分类程序的实现过程(C++语言)——特征选择的预处理