[数据挖掘]数学基础---距离度量方式(马氏距离,欧式距离,曼哈顿距离)
2016-01-14 14:36
411 查看
马氏距离
欧式距离
曼哈顿距离
参考资料
马氏距离的定义:设总体G为m维总体(考察m个指标),均值向量为μ=(μ1,μ2,...,μm)′,协方差阵为∑=(σij),则样品X=(x1,x2,...,xm)′与总体G的马氏距离定义为
d2(X,G)=(X−μ)′∑−1(X−μ)
当m=1时,∑−1=1σ2,所以
d2(x,G)=(x−μ)2σ2
下面来谈个例子,关于马氏距离在距离判别的应用(例子来源自北大数学学院PPT,参考资料已经注明)。
例子:已知有2个类G1和G2,G1是设备A生产的产品,G2是设备B生产的产品。设备A的产品质量高,其平均耐磨度μG1=80,反映设备精度的方差σ2(G1)=0.25;设备B的产品质量稍差,其平均耐磨度μG2=75,反映设备精度的方差σ2(G1)=4。现在有一产品X0,测得耐磨度x_{0}=78$,试判断该产品是哪一台设备生产的?
直观的看,X0与μ1的绝对距离近些,按距离最近的原则产品X0将被认为是A生产的。但是考虑到方差,这种判断是不合理的。
现在考虑用马氏距离来解决这个问题。
根据定义,此时的m=1
d2(x0,G1)=(x−μ1)2σ21=(78−80)20.25=16
d2(x0,G2)=(x−μ2)2σ22=(78−75)24=2.25
明显后者小于前者,所以为B生产。
可以这样理解这个例子:设备B生产的质量较分散,出现X0的可能性仍然较大。
马氏距离是一种相对于分散性的距离。
应该注意马氏距离如下的性质:
1.如果协方差矩阵为单位矩阵,马氏距离就简化为欧式距离。
2.马氏距离的计算是建立在总体样本的基础上的。
3.计算马氏距离要求总体样本数大于样本的维度。
4.当协方差矩阵的逆矩阵(样本在所处平面内共线),这种情况用欧式距离计算即可。
定义:
L1(xi,xj)=(∑ni=1|x(l)i−x(l)j|2)(12)
![](https://img-blog.csdn.net/20160114143416852)
L1(xi,xj)=(∑ni=1|x(l)i−x(l)j|)
[2]http://wenku.baidu.com/link?url=xU3ejKXnB_WYT4AcRo5ucrCutHNIOzVjblUnwVsDxMBzmbyvceTvliZ2gUkx1KTP17pY0UQzcZumryB1l2hs-ckYLnKWJlP6oYU0YNPIS9W
[3]胡婷婷。厦门大学硕士论文。数据挖掘中的离群点检测算法研究。2014年。
欧式距离
曼哈顿距离
参考资料
马氏距离
概念:马氏距离是由印度统计学家马哈拉洛比斯提出的,表示数据的协方差距离。它是一种有效的计算两个位置样本集相似度的方法。马氏距离的定义:设总体G为m维总体(考察m个指标),均值向量为μ=(μ1,μ2,...,μm)′,协方差阵为∑=(σij),则样品X=(x1,x2,...,xm)′与总体G的马氏距离定义为
d2(X,G)=(X−μ)′∑−1(X−μ)
当m=1时,∑−1=1σ2,所以
d2(x,G)=(x−μ)2σ2
下面来谈个例子,关于马氏距离在距离判别的应用(例子来源自北大数学学院PPT,参考资料已经注明)。
例子:已知有2个类G1和G2,G1是设备A生产的产品,G2是设备B生产的产品。设备A的产品质量高,其平均耐磨度μG1=80,反映设备精度的方差σ2(G1)=0.25;设备B的产品质量稍差,其平均耐磨度μG2=75,反映设备精度的方差σ2(G1)=4。现在有一产品X0,测得耐磨度x_{0}=78$,试判断该产品是哪一台设备生产的?
直观的看,X0与μ1的绝对距离近些,按距离最近的原则产品X0将被认为是A生产的。但是考虑到方差,这种判断是不合理的。
现在考虑用马氏距离来解决这个问题。
根据定义,此时的m=1
d2(x0,G1)=(x−μ1)2σ21=(78−80)20.25=16
d2(x0,G2)=(x−μ2)2σ22=(78−75)24=2.25
明显后者小于前者,所以为B生产。
可以这样理解这个例子:设备B生产的质量较分散,出现X0的可能性仍然较大。
马氏距离是一种相对于分散性的距离。
应该注意马氏距离如下的性质:
1.如果协方差矩阵为单位矩阵,马氏距离就简化为欧式距离。
2.马氏距离的计算是建立在总体样本的基础上的。
3.计算马氏距离要求总体样本数大于样本的维度。
4.当协方差矩阵的逆矩阵(样本在所处平面内共线),这种情况用欧式距离计算即可。
欧式距离
笔者在另外一篇回顾性的博文中,提到过范数的概念,点击博文链接机器学习之数学知识回顾。其实曼哈顿距离和欧式距离分别是L1h和L2范数。定义:
L1(xi,xj)=(∑ni=1|x(l)i−x(l)j|2)(12)
曼哈顿距离
曼哈顿距离也称为出租车几何,由赫尔曼-敏可夫斯基提出,如下图所示。两点直接的直线距离为欧式距离,而横纵坐标绝对值之和的值代表曼哈顿距离。L1(xi,xj)=(∑ni=1|x(l)i−x(l)j|)
参考资料
[1] http://wenku.baidu.com/link?url=xU3ejKXnB_WYT4AcRo5ucrCutHNIOzVjblUnwVsDxMBzmbyvceTvliZ2gUkx1KTP17pY0UQzcZumryB1l2hs-ckYLnKWJlP6oYU0YNPIS9W[2]http://wenku.baidu.com/link?url=xU3ejKXnB_WYT4AcRo5ucrCutHNIOzVjblUnwVsDxMBzmbyvceTvliZ2gUkx1KTP17pY0UQzcZumryB1l2hs-ckYLnKWJlP6oYU0YNPIS9W
[3]胡婷婷。厦门大学硕士论文。数据挖掘中的离群点检测算法研究。2014年。
相关文章推荐
- 浏览器能上网,qq,百度云不能上
- keepalived+mysql双主
- [leetcode] 287. Find the Duplicate Number 解题报告
- ios蓝牙开发(二)
- 测试工作——Web测试需要了解的内容
- iOS开发之事件传递响应链
- 学习笔记8: android stuido 如何获取SHA1数字签名,MD5信息
- C#使用post提交http请求
- 索引的创建和删除
- 如何借助windowns的VHD引导特性实现VHD多windows系统共存
- Unity中C#单例模式使用总结
- 谷歌做了一个艰难的决定:安卓系统不再用Java API 了
- win7 + VS2010配置opencv、boost、QT、QT-addin、CGAL
- JQuery中如何重置(reset)表单
- 利用 canvas 破解 某拖动验证码
- ListView下拉刷新,上拉自动加载更多
- 更换key后,跳板机known_hosts保留原来认证信息,无法认证登录
- WeakHashMap解析
- RAID5阵列硬盘离线怎么恢复
- XMPP协议学习笔记二