相关性检验-Spearman秩相关系数和皮尔森相关系数
2015-07-09 15:31
239 查看
感谢原作者Orisun。介绍的很详细
皮尔逊相关系数(Pearson correlation coefficient)也叫皮尔森积差相关系数(Pearson product-moment coreelation coefficient),是用来
反映两个变量相似程度的统计量。或者说可以用来计算两个向量的相似度(在基于向量空间模型的文本分类、用户喜好推荐系统中应用广泛)。
分子是协方差,分母是两个变量标准差的乘积,要求X和Y的标准差都不能为0
当两个变量的线性关系增强时,相关系数趋于1或-1,正相关时趋于1,负相关时趋于-1.当两个变量相互独立时为0,反之不成立,e.g:
y=x2,X服从[-1,1]上的均匀分布,此时E(XY)为0,E(X)也为0,所以皮尔逊相关系数也为0,但是x和y明显不独立。
但是,当Y和X服从联合正态分布时,其相互独立和不相关是等价的。
居中:每个数据减去样本均值,居中后他们的平均值就为0。
E(X)和E(Y)=0,此时有:
即相关系数可以看做是两个随机变量中得到的样本集向量之间家教的Cosine函数。
当X和Y向量归一化后,||X||=||Y||=1,相关系数,即为两个向量的乘积
使用Pearson线性相关系数有两个局限:
1.必须假设数据是成对地从正态分布中取得
2.数据至少在逻辑范围内是等距的
Spearman秩相关系数就是其中一种解决方法,Spearman秩相关系数是一种无参数(与分布无关)检验方法,用于度量变量之间联系的强弱。在没有重复数据的情况下,如果一个变量是另外一个变量的严格单调函数,则Spearman秩相关系数就是+1或者-1,称变量完全Spearman秩相关。
对原始数据xi,yi按从大到小排序,记x'i,y'i为原始xi,yi在排序后列表中的位置,x'i,y'i称为xi,yi的秩次,秩次差di=x'i-y'i。Spearman秩相关系数为:
对于上表数据,算出Spearman秩相关系数为:1-6*(1+1+1+9)/(6*35)=0.6571
查阅秩相关系数检验的临界值表
n=6时,0.6571<0.829,所以在0.01的显著水平下认为X和Y是不相关的。
如何原始数据中有重复值,则在求秩次时要以它们的平均值为准,比如:
X=(1,2,3)跟Y=(4,5,6)的皮尔森相关系数等于1,说明X和Y是严格线性相关的(事实上Y=X+3)。
但是X和Y的相似度却不是1,如果用余弦距离来度量,X和Y之间的距离明显大于0。
皮尔逊相关系数(Pearson correlation coefficient)也叫皮尔森积差相关系数(Pearson product-moment coreelation coefficient),是用来
反映两个变量相似程度的统计量。或者说可以用来计算两个向量的相似度(在基于向量空间模型的文本分类、用户喜好推荐系统中应用广泛)。
分子是协方差,分母是两个变量标准差的乘积,要求X和Y的标准差都不能为0
当两个变量的线性关系增强时,相关系数趋于1或-1,正相关时趋于1,负相关时趋于-1.当两个变量相互独立时为0,反之不成立,e.g:
y=x2,X服从[-1,1]上的均匀分布,此时E(XY)为0,E(X)也为0,所以皮尔逊相关系数也为0,但是x和y明显不独立。
但是,当Y和X服从联合正态分布时,其相互独立和不相关是等价的。
居中:每个数据减去样本均值,居中后他们的平均值就为0。
E(X)和E(Y)=0,此时有:
即相关系数可以看做是两个随机变量中得到的样本集向量之间家教的Cosine函数。
当X和Y向量归一化后,||X||=||Y||=1,相关系数,即为两个向量的乘积
使用Pearson线性相关系数有两个局限:
1.必须假设数据是成对地从正态分布中取得
2.数据至少在逻辑范围内是等距的
Spearman秩相关系数就是其中一种解决方法,Spearman秩相关系数是一种无参数(与分布无关)检验方法,用于度量变量之间联系的强弱。在没有重复数据的情况下,如果一个变量是另外一个变量的严格单调函数,则Spearman秩相关系数就是+1或者-1,称变量完全Spearman秩相关。
对原始数据xi,yi按从大到小排序,记x'i,y'i为原始xi,yi在排序后列表中的位置,x'i,y'i称为xi,yi的秩次,秩次差di=x'i-y'i。Spearman秩相关系数为:
位置 | 原始X | 排序后 | 秩次 | 原始Y | 排序后 | 秩次 | 秩次差 |
1 | 12 | 546 | 5 | 1 | 78 | 6 | 1 |
2 | 546 | 45 | 1 | 78 | 46 | 1 | 0 |
3 | 13 | 32 | 4 | 2 | 45 | 5 | 1 |
4 | 45 | 13 | 2 | 46 | 6 | 2 | 0 |
5 | 32 | 12 | 3 | 6 | 2 | 4 | 1 |
6 | 2 | 2 | 6 | 45 | 1 | 3 | -3 |
查阅秩相关系数检验的临界值表
n | 显著水平 | |
0.01 | 0.05 | |
5 | 0.9 | 1 |
6 | 0.829 | 0.943 |
7 | 0.714 | 0.893 |
如何原始数据中有重复值,则在求秩次时要以它们的平均值为准,比如:
原始X | 秩次 | 调整后的秩次 |
0.8 | 5 | 5 |
1.2 | 4 | (4+3)/2=3.5 |
1.2 | 3 | (4+3)/2=3.5 |
2.3 | 2 | 2 |
18 | 1 | 1 |
相关性和相似度的区别
X=(1,2,3)跟Y=(4,5,6)的皮尔森相关系数等于1,说明X和Y是严格线性相关的(事实上Y=X+3)。但是X和Y的相似度却不是1,如果用余弦距离来度量,X和Y之间的距离明显大于0。
相关文章推荐
- 相似性度量--Pearson相关系数
- 相关性检验-Spearman秩相关系数和皮尔森相关系数
- 相关性检验-Spearman秩相关系数和皮尔森相关系数
- 相关性检验-Spearman秩相关系数和皮尔森相关系数
- 相关性检验-Spearman秩相关系数和皮尔森相关系数
- 相关性检验-Spearman秩相关系数和皮尔森相关系数
- 相关性检验-Spearman秩相关系数和皮尔森相关系数
- 相关性检验-Spearman秩相关系数和皮尔森相关系数
- 皮尔逊相关度系数原理,以及java实现
- 思杰XenServer相关官方认证介绍
- Spark中组件Mllib的学习18之corr:两组数据相关关系计算(Pearson、Spearman)
- SPSS——相关分析——Pearson简单相关系数
- pearson 相关系数 & 机器学习模型中不平衡样本问题
- 几个相关系数:Pearson、Spearman、pointbiserialr、kendalltau
- 0912_Collective Intelligence Programming Reading Notes
- pearson相关系数与spearman秩相关系数
- 相似度算法之皮尔逊相关系数
- Spark计算相关性系数(皮尔森、斯皮尔曼、卡方检验)
- 相关性分析指标-Pearson,Spearman,Kendall,Multual information
- 统计中的三种相关系数及Matlab实现