您的位置:首页 > 其它

数据挖掘/机器学习 之 距离测度

2016-04-11 21:15 330 查看
某空间下的距离测度是一个函数d(x,y),该函数满足下列准则:

d(x,y)>=0 (距离非负)
d(x,y)=0,当且仅当x=y
d(x,y)=d(y,x)(对称性)
d(x,y)<=d(x,z)+d(z,y)(三角不等式)

常见的有:

欧氏距离
Jaccard距离
余弦距离
编辑距离:两个字符串x,y把x替换为y所需要的单支付插入及删除操作的最小数目,一种计算的方法是:找到最长公共子序列(LCS),编辑距离等于x与y的长度之和它们的LCS长度的两倍
海明距离:定义为两个向量中不同分量的个数

此外还有相似性度量:

皮尔逊相关系数:



当两个变量的标准差都不为零时,相关系数才有定义,皮尔逊相关系数适用于:

(1)、两个变量之间是线性关系,都是连续数据。

(2)、两个变量的总体是正态分布,或接近正态的单峰分布。

(3)、两个变量的观测值是成对的,每对观测值之间相互独立。

由此可以得到,相似距离:


Jaccard相似度:两个集合A和B的交集元素在A,B的并集中所占的比例,用符号J(A,B)表示


,以及Jaccard的距离:
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: