Kendall's tau -- 相似程度指标
2011-06-20 13:31
190 查看
Kendall tau rank correlation coefficient
两个序列,例如S1 = {a, b, c, d}、 S2 = {a, c, b, d},如何度量它们的相似程度,有很重要的应用背景,在投票决策、表达式搜索、top-k比较、乃至搜索引擎优化等问题上有广泛的应用ref1,ref2。Kendall's tau则是其中一种度量指标。由同样元素组成,只是元素的排列顺序不同的两个序列,如果其顺序完全一致,则Kendall's tau值为1,如果完全反序其Kendall's tau值为0。
Kendall's tau具体的计算方式为 :
1 - 2.0*reversions / (n * (n -1)),
其中n为序列本身的长度(两个序列的长度相同),reversions为逆序对的个数。
逆序对的计算方法是: 对于两个给定的序列S1 = {a, b, c, d}和S2 = {a, c, b, d}。分别找出两个序列的二元约束集。在这个例子中S1的所有二元约束集为{(a,b), (a,c), (a,d), (b,c), (b,d), (c,d)},S2的所有二元约束集为{(a,c), (a,b), (a,d), (c,b), (c,d), (b,d)}。比较两个二元约束集,其中不同的二元约束是(b,c)和(c,b),即逆序对的个数为1。
代入上面的计算公式可以得到这两个序列的Kendall's tau指标为:
1 - 2. * 1 / (4 * 3) = 2. / 3 = 0.833
输入:
两个由同样元素组成的序列,每行一个。序列长度一致,只是元素的排列顺序不同,里面的元素不重复。
输出:
对应的Kendall's tau指标值【说明:保留到小数点后3位("%.3f/n")】
样例输入:
g,o,o,d
g,a,o,d
样例输出:
0.833
本文链接地址为:http://blog.csdn.net/jertvip/archive/2011/06/19/6555150.aspx
两个序列,例如S1 = {a, b, c, d}、 S2 = {a, c, b, d},如何度量它们的相似程度,有很重要的应用背景,在投票决策、表达式搜索、top-k比较、乃至搜索引擎优化等问题上有广泛的应用ref1,ref2。Kendall's tau则是其中一种度量指标。由同样元素组成,只是元素的排列顺序不同的两个序列,如果其顺序完全一致,则Kendall's tau值为1,如果完全反序其Kendall's tau值为0。
Kendall's tau具体的计算方式为 :
1 - 2.0*reversions / (n * (n -1)),
其中n为序列本身的长度(两个序列的长度相同),reversions为逆序对的个数。
逆序对的计算方法是: 对于两个给定的序列S1 = {a, b, c, d}和S2 = {a, c, b, d}。分别找出两个序列的二元约束集。在这个例子中S1的所有二元约束集为{(a,b), (a,c), (a,d), (b,c), (b,d), (c,d)},S2的所有二元约束集为{(a,c), (a,b), (a,d), (c,b), (c,d), (b,d)}。比较两个二元约束集,其中不同的二元约束是(b,c)和(c,b),即逆序对的个数为1。
代入上面的计算公式可以得到这两个序列的Kendall's tau指标为:
1 - 2. * 1 / (4 * 3) = 2. / 3 = 0.833
输入:
两个由同样元素组成的序列,每行一个。序列长度一致,只是元素的排列顺序不同,里面的元素不重复。
输出:
对应的Kendall's tau指标值【说明:保留到小数点后3位("%.3f/n")】
样例输入:
g,o,o,d
g,a,o,d
样例输出:
0.833
import java.util.HashSet; import java.util.Scanner; import java.util.Set; public class Similarity { public static void main(String[] args) { Scanner sca = new Scanner(System.in); String array1 = sca.nextLine(); String array2 = sca.nextLine(); String[] a = array1.split(","); String[] b = array2.split(","); int reversions = reversions(binarySet(a), binarySet(b)); System.out.format(("%.3f/n"), (1 - 2.0 * reversions / (a.length * (a.length - 1)))); } private static Set<String> binarySet(String[] a) { Set<String> set = new HashSet<String>(); for (int i = 0; i < a.length - 1; i++) for (int j = i + 1; j < a.length; j++) set.add(a[i] + "," + a[j]); return set; } private static int reversions(Set<String> a, Set<String> b) { int reversions = 0; for (String aString : a) if (!b.contains(aString)) reversions++; return reversions; } }
本文链接地址为:http://blog.csdn.net/jertvip/archive/2011/06/19/6555150.aspx
相关文章推荐
- Kendall's tau 相似程度指标
- 第八次作业Kendall's tau相似程度指标NO.3
- Kendall's tau
- Kendall’s tau-b,pearson、spearman三种相关性的区别(有空整理信息检索评价指标)
- 两幅相同大小图像的相似程度的两个评价指标-PSNR和SSIM
- pan's labyrinth
- python2.7中的UnicodeDecodeError: 'ascii' codec can't decode byte 0xb0 in position 1: ordinal not in ra
- struts <html:form>: Module 'null' not found
- BestCoder #65 1004 ZYB'S Tree(树形DP)
- Access denied for user: 'root@dbhost' (Using password: NO) ( 1045 )
- 弹出选择对话框 FUNCTION 'POPUP_TO_CONFIRM'
- POJ 2262 Goldbach's Conjecture(素数相关)
- Wow! Even Microsoft uses AutoESL's C synthesis to speed up its SW
- HDU1009 FatMouse' Trade
- HDU 4791 & ZOJ 3726 Alice's Print Service (数学 打表)
- poj 1681 Painter's Problem (高斯消元)
- Welcome to Bossycrab's Blog
- cvc-complex-type.3.2.2: Attribute 'singleton' is not allowed to appear in element 'bean'
- command line warning #10006: ignoring unknown option '/NODEFAULTLIB'错误解决(XPDF编译时出现的问题)
- poj 2451 Uyuw's Concert(半平面交求面积)