您的位置:首页 > 其它

[数据挖掘]数学基础---距离度量方式(马氏距离,欧式距离,曼哈顿距离)

2016-01-14 14:36 411 查看
马氏距离

欧式距离

曼哈顿距离

参考资料

马氏距离

概念:马氏距离是由印度统计学家马哈拉洛比斯提出的,表示数据的协方差距离。它是一种有效的计算两个位置样本集相似度的方法。

马氏距离的定义:设总体G为m维总体(考察m个指标),均值向量为μ=(μ1,μ2,...,μm)′,协方差阵为∑=(σij),则样品X=(x1,x2,...,xm)′与总体G的马氏距离定义为

d2(X,G)=(X−μ)′∑−1(X−μ)

当m=1时,∑−1=1σ2,所以

d2(x,G)=(x−μ)2σ2

下面来谈个例子,关于马氏距离在距离判别的应用(例子来源自北大数学学院PPT,参考资料已经注明)。

例子:已知有2个类G1和G2,G1是设备A生产的产品,G2是设备B生产的产品。设备A的产品质量高,其平均耐磨度μG1=80,反映设备精度的方差σ2(G1)=0.25;设备B的产品质量稍差,其平均耐磨度μG2=75,反映设备精度的方差σ2(G1)=4。现在有一产品X0,测得耐磨度x_{0}=78$,试判断该产品是哪一台设备生产的?

直观的看,X0与μ1的绝对距离近些,按距离最近的原则产品X0将被认为是A生产的。但是考虑到方差,这种判断是不合理的。

现在考虑用马氏距离来解决这个问题。

根据定义,此时的m=1

d2(x0,G1)=(x−μ1)2σ21=(78−80)20.25=16

d2(x0,G2)=(x−μ2)2σ22=(78−75)24=2.25

明显后者小于前者,所以为B生产。

可以这样理解这个例子:设备B生产的质量较分散,出现X0的可能性仍然较大。

马氏距离是一种相对于分散性的距离。

应该注意马氏距离如下的性质:

1.如果协方差矩阵为单位矩阵,马氏距离就简化为欧式距离。

2.马氏距离的计算是建立在总体样本的基础上的。

3.计算马氏距离要求总体样本数大于样本的维度。

4.当协方差矩阵的逆矩阵(样本在所处平面内共线),这种情况用欧式距离计算即可。

欧式距离

笔者在另外一篇回顾性的博文中,提到过范数的概念,点击博文链接机器学习之数学知识回顾。其实曼哈顿距离和欧式距离分别是L1h和L2范数。

定义:

L1(xi,xj)=(∑ni=1|x(l)i−x(l)j|2)(12)

曼哈顿距离

曼哈顿距离也称为出租车几何,由赫尔曼-敏可夫斯基提出,如下图所示。两点直接的直线距离为欧式距离,而横纵坐标绝对值之和的值代表曼哈顿距离。



L1(xi,xj)=(∑ni=1|x(l)i−x(l)j|)

参考资料

[1] http://wenku.baidu.com/link?url=xU3ejKXnB_WYT4AcRo5ucrCutHNIOzVjblUnwVsDxMBzmbyvceTvliZ2gUkx1KTP17pY0UQzcZumryB1l2hs-ckYLnKWJlP6oYU0YNPIS9W

[2]http://wenku.baidu.com/link?url=xU3ejKXnB_WYT4AcRo5ucrCutHNIOzVjblUnwVsDxMBzmbyvceTvliZ2gUkx1KTP17pY0UQzcZumryB1l2hs-ckYLnKWJlP6oYU0YNPIS9W

[3]胡婷婷。厦门大学硕士论文。数据挖掘中的离群点检测算法研究。2014年。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: