您的位置：首页 > 其它

归一化用于文本分类中的特征向量计算

2015-03-07 16:10 274 查看

归一化，也即数据标准化。是数据挖掘的一项基础工作，不同评价指标往往具有不同的量纲和量纲单位，这样的情况会影响到数据分析的结果，为了消除指标之间的量纲影响，需要进行数据标准化处理，以解决数据指标之间的可比性。原始数据经过数据标准化处理后，各指标处于同一数量级，适合进行综合对比评价。以下是两种归一化方法：

一、min-max标准化（Min-Max Normalization）

也称为离差标准化，是对原始数据的线性变换，使结果值映射到[0 - 1]之间。归一化映射如下：

f:x→y=x−xminxmax−xminf: x\to y=\frac {x-x_{min}} {x_{max}-x_{min}}

二. 向量求模标准化

如 a⃗ =(1,2,3)\vec a=(1,2,3),计算得模为|a⃗ |=12+22+3212+22+32√=3.742|\vec a|=\frac{1^2+2^2+3^2}{\sqrt {1^2+2^2+3^2}}=3.742，则a⃗ new=(13.742,23.742,33.742)\vec a_{new}=(\frac 1 {3.742},\frac 2{3.742},\frac 3{3.742}).

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航