您的位置：首页 > 其它

Kendall's tau -- 相似程度指标

2011-06-20 13:31 190 查看

Kendall tau rank correlation coefficient

两个序列，例如S1 = {a, b, c, d}、 S2 = {a, c, b, d}，如何度量它们的相似程度，有很重要的应用背景，在投票决策、表达式搜索、top-k比较、乃至搜索引擎优化等问题上有广泛的应用ref1,ref2。Kendall's tau则是其中一种度量指标。由同样元素组成，只是元素的排列顺序不同的两个序列，如果其顺序完全一致，则Kendall's tau值为1，如果完全反序其Kendall's tau值为0。

Kendall's tau具体的计算方式为 :

1 - 2.0*reversions / (n * (n -1))，

其中n为序列本身的长度(两个序列的长度相同)，reversions为逆序对的个数。

逆序对的计算方法是: 对于两个给定的序列S1 = {a, b, c, d}和S2 = {a, c, b, d}。分别找出两个序列的二元约束集。在这个例子中S1的所有二元约束集为{(a,b), (a,c), (a,d), (b,c), (b,d)， (c,d)}，S2的所有二元约束集为{(a,c), (a,b), (a,d), (c,b), (c,d), (b,d)}。比较两个二元约束集，其中不同的二元约束是(b,c)和(c,b)，即逆序对的个数为1。

代入上面的计算公式可以得到这两个序列的Kendall's tau指标为:

1 - 2. * 1 / (4 * 3) = 2. / 3 = 0.833

输入：

两个由同样元素组成的序列，每行一个。序列长度一致，只是元素的排列顺序不同，里面的元素不重复。

输出：

对应的Kendall's tau指标值【说明：保留到小数点后3位("%.3f/n")】

样例输入：

g,o,o,d
g,a,o,d

样例输出：

0.833

import java.util.HashSet;
import java.util.Scanner;
import java.util.Set;

public class Similarity
{
public static void main(String[] args)
{
Scanner sca = new Scanner(System.in);
String array1 = sca.nextLine();
String array2 = sca.nextLine();

String[] a = array1.split(",");
String[] b = array2.split(",");

int reversions = reversions(binarySet(a), binarySet(b));
System.out.format(("%.3f/n"), (1 - 2.0 * reversions / (a.length * (a.length - 1))));
}

private static Set<String> binarySet(String[] a)
{
Set<String> set = new HashSet<String>();
for (int i = 0; i < a.length - 1; i++)
for (int j = i + 1; j < a.length; j++)
set.add(a[i] + "," + a[j]);
return set;
}

private static int reversions(Set<String> a, Set<String> b)
{
int reversions = 0;
for (String aString : a)
if (!b.contains(aString))
reversions++;
return reversions;
}

}

本文链接地址为：http://blog.csdn.net/jertvip/archive/2011/06/19/6555150.aspx

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航

Kendall&#39;s tau -- 相似程度指标

Kendall's tau -- 相似程度指标