您的位置：首页 > 其它

LDA数学原理及优缺点

2017-03-09 17:09 316 查看

线性判别分析（Linear Discriminant Analysis，LDA），也称线性判别法，是由Fisher于1936年提出。

基本思想和原理：

通常是指在输入变量上构造线性判别函数的方法，但是它也可以寻求一种变换，使得在某种意义下类间分离性最大，类内分离性最小或相异性最小。

原理：

将高维的模式样本投影到最佳鉴别矢量空间，以达到抽取分类信息和压缩特征空间维数的效果，投影后保证模式样本在新的子空间有最大的类间距离和最小的类内距离，即模式在该空间中有最佳的可分离性。

下面以最简单的两类线性判别分析进行介绍：

基本假设：

给定N个特征为d维的样例

，其中有N1个样本属于类别1， N2个样本属于类别2

目标：

通过投影，想将d维特征降到只有一维，而又要保证类别能够“清晰”地反映在低维数据上

LDA计算过程：

（1）寻找每类样例的均值（中心点）,（i代表类别，此处取1,2，下同）

（2）求x到w投影后的样本点投影均值

*投影后的的均值也就是样本中心点的投影

最佳投影方向条件之一：投影后的两样本中心点尽量分离。即：

J(w)越大越好。

投影中心间距大，投影后两类存在重叠，不利于分类，需要考虑样本点之间的方差

（3）对投影后的每一类求散列值（scatter）

*散列值的几何意义是样本点的密集程度，值越大，越分散，反之，越集中。

最佳投影方向条件之二：投影后的两样本之内尽量聚集。即每类的散列值越小越好。

定量描述即为：

（4）Fisher准则函数化简

散列值公式展开：

散列矩阵

* Sw称为Within-class
scatter matrix

对原公式进行替换：

类似的，对分子进行替换

*其中SB称为Between-class
scatter

那么J(w)最终可以表示为:

在对w求导之前，需要对分母进行归一化，因为不做归一的话，w扩大任何倍，都成立，就无法确定w。因此我们打算令||WTSWW||=1，那么加入拉格朗日乘子后，求导：

由于对w扩大缩小任何倍不影响结果，因此可以约去两边的未知常数，得到:

只需要求出原始样本的均值和方差就可以求出最佳的方向w，这就是Fisher于1936年提出的线性判别分析。

优点：

1、以标签，类别衡量差异性的有监督降维方式，相对于PCA的模糊性，其目的更明确，更能反映样本间的差异。

缺点：

1、局限性大，受样本种类限制，投影空间的维数最多为样本数量N-1维。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航