Maximal Information Coefficient 最大信息系数
2016-03-08 12:45
579 查看
在统计学中,最大信息系数用于衡量两个变量XX和YY的线性或非线性的强度。来自Berkeley的Terry Speed说它是“a correlation for the 21st century”。但也有人说“MIC的统计能力遭到了一些质疑,当零假设不成立时,MIC的统计就会受到影响。在有的数据集上不存在这个问题,但有的数据集上就存在这个问题。”
equitability:对不同类型的噪声程度同等的关系给予相近的分数。
http://minepy.sourceforge.net/
mic_sample.py
output (possible)
http://blog.sciencenet.cn/blog-830496-872998.html
http://dataunion.org/14072.html
介绍
定义
Maximal Information Coefficient (MIC) 最大信息系数,属于Maximal Information-based Nonparametric Exploration (MINE) 最大的基于信息的非参数性探索,用于衡量两个变量XX和YY的线性或非线性的强度。起源
Reshef, David N., et al. “Detecting novel associations in large data sets.” science 334.6062 (2011): 1518-1524.优点
generality:拥有足够的统计样本时,可以捕获广泛的关系,而不限定于特定的函数类型(如线性、指数型、周期型等)。equitability:对不同类型的噪声程度同等的关系给予相近的分数。
缺点
“MIC的统计能力遭到了一些质疑,当零假设不成立时,MIC的统计就会受到影响。在有的数据集上不存在这个问题,但有的数据集上就存在这个问题。”应用领域
统计学相关
Maximal Information-based Nonparametric Exploration (MINE) 最大的基于信息的非参数性探索思想
如果两个变量之间存在关系,则在这二者的散点图中,可以绘制网格(grid)来划分数据进行封装关系。实现
Python
minepyhttp://minepy.sourceforge.net/
mic_sample.py
from minepy import MINE import numpy as np np.random.seed(0) size = 1000 X = np.random.uniform(0, 2, (size, 5)) Y = X[:, 1] + X[:, 2] ** 2 + np.sin(np.pi * 0.5 * X[:, 3]) + \ np.log(X[:, 4]) + np.random.normal(0, 1) X[:, 0] = X[:, 1] + np.random.normal(0, 1) mine = MINE() mic_scores = [] for i in range(X.shape[1]): mine.compute_score(X[:, i], Y) m = mine.mic() mic_scores.append(m) print(mic_scores)
output (possible)
[0.21735785164297244, 0.21735785164297244, 0.48351888068913057, 0.14723020968106829, 0.31786293970009444]
应用
TODO参考
Reshef D N, Reshef Y A, Finucane H K, et al. Detecting novel associations in large data sets[J]. science, 2011, 334(6062): 1518-1524.http://blog.sciencenet.cn/blog-830496-872998.html
http://dataunion.org/14072.html
相关文章推荐
- js控制TR的显示隐藏
- 虚拟现实外包公司—VR游戏你不知道的以及你该知道的WebVR
- HTML5 canvas绘制雪花飘落动画(需求分析、知识点、程序编写分布详解)
- HTML5外包
- 深入理解SetUID
- 杭电1217
- [C语言][LeetCode][83]Remove Duplicates from Sorted List
- CentOS7.1 最小化安装之初始配置
- Ubuntu的安装
- CoreLocation.framework框架基本用法
- hdoj 5638 Toposort 【线段树 维护 拓扑序】
- ZOJ-3923-In the Rain
- Linux查看JDK的安装路径和JAVA_HOME的环境变量设置
- “TableDetails”中列“IsPrimaryKey”的值为DBNull.
- 【android】ArrayAdapter 使用浅析
- static int 和 int 区别
- 实现Writable类型的ListWritable,SetWritable
- 怎么发布局局域网内使用,配置iis,进行测试
- Selenium中expected_conditions下text_to_be_present_in_element_value方法的使用
- 深入浅出剖析内容分发网络CDN(图自画)