数据挖掘/机器学习 之 距离测度
2016-04-11 21:15
330 查看
某空间下的距离测度是一个函数d(x,y),该函数满足下列准则:
d(x,y)>=0 (距离非负)
d(x,y)=0,当且仅当x=y
d(x,y)=d(y,x)(对称性)
d(x,y)<=d(x,z)+d(z,y)(三角不等式)
常见的有:
欧氏距离
Jaccard距离
余弦距离
编辑距离:两个字符串x,y把x替换为y所需要的单支付插入及删除操作的最小数目,一种计算的方法是:找到最长公共子序列(LCS),编辑距离等于x与y的长度之和它们的LCS长度的两倍
海明距离:定义为两个向量中不同分量的个数
此外还有相似性度量:
皮尔逊相关系数:
当两个变量的标准差都不为零时,相关系数才有定义,皮尔逊相关系数适用于:
(1)、两个变量之间是线性关系,都是连续数据。
(2)、两个变量的总体是正态分布,或接近正态的单峰分布。
(3)、两个变量的观测值是成对的,每对观测值之间相互独立。
由此可以得到,相似距离:
Jaccard相似度:两个集合A和B的交集元素在A,B的并集中所占的比例,用符号J(A,B)表示
,以及Jaccard的距离:
d(x,y)>=0 (距离非负)
d(x,y)=0,当且仅当x=y
d(x,y)=d(y,x)(对称性)
d(x,y)<=d(x,z)+d(z,y)(三角不等式)
常见的有:
欧氏距离
Jaccard距离
余弦距离
编辑距离:两个字符串x,y把x替换为y所需要的单支付插入及删除操作的最小数目,一种计算的方法是:找到最长公共子序列(LCS),编辑距离等于x与y的长度之和它们的LCS长度的两倍
海明距离:定义为两个向量中不同分量的个数
此外还有相似性度量:
皮尔逊相关系数:
当两个变量的标准差都不为零时,相关系数才有定义,皮尔逊相关系数适用于:
(1)、两个变量之间是线性关系,都是连续数据。
(2)、两个变量的总体是正态分布,或接近正态的单峰分布。
(3)、两个变量的观测值是成对的,每对观测值之间相互独立。
由此可以得到,相似距离:
Jaccard相似度:两个集合A和B的交集元素在A,B的并集中所占的比例,用符号J(A,B)表示
,以及Jaccard的距离:
相关文章推荐
- java基础随笔-overload和override
- sigmoid
- jvm虚拟机整理
- [Lintcode]Singleton
- android 使用OkHttp上传多张图片
- 迷宫问题
- POJ 【2739】 Sum of Consecutive Prime Numbers
- ACM-1001
- Hadoop安全模式详解及配置
- CSS3实战之box-shadow篇
- 二分图匹配--匈牙利算法
- windows下python安装Numpy、matplotlib和whl文件
- 【POJ 3277】 City Horizon(离散化+树状数组+二分)
- tomcat——简单的日志实现
- spring applicationContext.xml 配置文件 详解
- NYOJ564 最优对称路径(记忆化搜索+spfa)
- 2016-04-11/获取系统当前时间
- 用vector进行图的邻接表存储
- linux基础学习之 nfs挂载
- Hibernate管理Session