相似度属性之距离
2013-04-02 15:34
204 查看
欧氏距离:
欧几里得度量定义欧几里得空间中,点 x =
(x1,...,xn) 和 y = (y1,...,yn) 之间的距离为
向量
的自然长度,即该点到原点的距离为
.
它是一个纯数值。在欧几里得度量下,两点之间直线最短。
马氏距离
马氏距离是由印度统计学家马哈拉诺比斯(P. C. Mahalanobis)提出的,表示数据的协方差距离。它是一种有效的计算两个未知样本集
的相似度的方法。与欧氏距离不同的是它考虑到各种特性之间的联系(例如:一条关于身高的信息会带来一条关于体重的信息,因为两者 是有关联的)并且是尺度无关的(scale-invariant),即独立于测量尺度。
对于一个均值为
,协方差矩阵为
的多变量向量
,其马氏距离为
马氏距离也可以定义为两个服从同一分布并且其协方差矩阵为
的随机变量
与
的差异程度:
如果协方差矩阵为单位矩阵,马氏距离就简化为欧氏距离;如果协方差矩阵为对角阵,其也可称为正规化的欧氏距离。
其中
是
的标准差。
巴氏距离
在统计学中,巴氏距离(巴塔恰里雅距离 / Bhattacharyya distance)用于测量两离散概率分布。它常在分类中测量类之间的可分离性。
在同一定义域X中,概率分布p和q的巴氏距离定义如下:其中(1)离散概率分布和(2)连续概率分布
BC是巴氏系数(Bhattacharyya coefficient)。
对于多维的正态分布
其中
and
分别是分布的期望与协方差矩阵
,
.
具体可参见wikipedia上的信息
欧几里得度量定义欧几里得空间中,点 x =
(x1,...,xn) 和 y = (y1,...,yn) 之间的距离为
向量
的自然长度,即该点到原点的距离为
.
它是一个纯数值。在欧几里得度量下,两点之间直线最短。
马氏距离
马氏距离是由印度统计学家马哈拉诺比斯(P. C. Mahalanobis)提出的,表示数据的协方差距离。它是一种有效的计算两个未知样本集
的相似度的方法。与欧氏距离不同的是它考虑到各种特性之间的联系(例如:一条关于身高的信息会带来一条关于体重的信息,因为两者 是有关联的)并且是尺度无关的(scale-invariant),即独立于测量尺度。
对于一个均值为
,协方差矩阵为
的多变量向量
,其马氏距离为
马氏距离也可以定义为两个服从同一分布并且其协方差矩阵为
的随机变量
与
的差异程度:
如果协方差矩阵为单位矩阵,马氏距离就简化为欧氏距离;如果协方差矩阵为对角阵,其也可称为正规化的欧氏距离。
其中
是
的标准差。
巴氏距离
在统计学中,巴氏距离(巴塔恰里雅距离 / Bhattacharyya distance)用于测量两离散概率分布。它常在分类中测量类之间的可分离性。
在同一定义域X中,概率分布p和q的巴氏距离定义如下:其中(1)离散概率分布和(2)连续概率分布
BC是巴氏系数(Bhattacharyya coefficient)。
对于多维的正态分布
其中
and
分别是分布的期望与协方差矩阵
,
.
具体可参见wikipedia上的信息
相关文章推荐
- 海量数据相似度计算实例 simhash和海明距离
- Levenshtein Distance Levenshtein 编辑距离——一种相似度的计算方法
- js获取屏幕高度,宽度,滚动距离属性总结
- 距离和相似度度量
- 距离和相似度度量
- 距离和相似度度量
- 利用编辑距离(Edit Distance)计算两个字符串的相似度
- 编辑距离及编辑距离算法(求字符的相似度) js版
- 海量数据相似度计算之simhash和海明距离
- 滑动scrollview时,随距离改变属性的动画原理!(类似陌陌,网易,path个人属性界面的动画效果)
- 海量数据相似度计算之simhash和海明距离
- 相似度和相异度、常用距离度量、余弦相似度
- 计算两个字符串的距离(相似度)
- 距离及相似度度量方法
- 字符串相似度(距离)
- 字符串相似度算法(编辑距离算法 Levenshtein Distance)
- HTML基础 table标签cellpadding属性设置单元格中的文本与单元格的距离
- [置顶] 基于属性值相关距离的KNN算法
- 计算字符串的相似度(编辑距离)
- 编辑距离 字符串相似度问题