您的位置:首页 > 其它

归一化用于文本分类中的特征向量计算

2015-03-07 16:10 274 查看
归一化,也即数据标准化。是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。以下是两种归一化方法:

一、min-max标准化(Min-Max Normalization)

也称为离差标准化,是对原始数据的线性变换,使结果值映射到[0 - 1]之间。归一化映射如下:

f:x→y=x−xminxmax−xminf: x\to y=\frac {x-x_{min}} {x_{max}-x_{min}}

二. 向量求模标准化

如 a⃗ =(1,2,3)\vec a=(1,2,3),计算得模为|a⃗ |=12+22+3212+22+32√=3.742|\vec a|=\frac{1^2+2^2+3^2}{\sqrt {1^2+2^2+3^2}}=3.742,则a⃗ new=(13.742,23.742,33.742)\vec a_{new}=(\frac 1 {3.742},\frac 2{3.742},\frac 3{3.742}).
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐