数据挖掘导论--数据
2016-04-21 23:38
176 查看
数据
写在前面的话:学习过的知识不常用就会生疏,概念的东西特别容易遗忘,还是老老实实过一遍书,并做好笔记,以待日后快速查阅。属性的类型
标称(nominal):定性属性。仅仅是不同的名字,如性别,邮政编码,判别用=,≠
序数(ordinal):定性属性。能提供足够的信息确定序,成绩(优良中差),病情严重(好,较好,一般,差),判别:< ,>
区间(interval):定量属性。值之间的查是有意义的,如温度
抽样方法
简单随机抽样:有放回抽样,无放回抽样
分层抽样:解决简单随机抽样无法保证解决稀缺种类的样本数量的情况。
(1):尽管每组大小不同,但是抽取的对象个数相同。
(2):每一组抽取的样本个数与该组样本容量成正比。
数据标准化(normalization)
数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。
(1)z-score:x=x−x¯s
s:标准差
经过标准化的数据,其值发生改变,但其所处的相对位置并没有改变。比如距离均值两倍标准差的点,在标准化之后,其距离均值仍为两倍标准差
可将均值替换为中位数来降低x的异常值对x均值的影响,它具有均值为0,标准差1.例如人的年纪和收入这两个属性进行比较
(2)0-1标准化:
x−xminxmax−xmin
数据的相异性(距离)
距离公式(闵可夫斯基):d=(∑i=0n|xk−yk|r)1r
r = 1:曼哈顿距离(L1范数)
r= 2:欧氏距离(L2范数)
数据的相似性
(1)Jaccard系数:
仅能处理二元属性的对象:
J=A⋂BA⋃B=f11f01+f10+f01
f11x=1且y=1
f01x=0且y=1
f10x=1且y=0
f00x=0且y=0
例如
x=(1,0,0,0,0,0,0,0,0,0)
y=(0,0,0,0,0,0,1,0,0,1)
f11=0,f01=2,f10=1,f00=0
J=0
(2)余弦相似性:
能够处理非二元向量
(3)广义Jaccard系数:(Tanimoto系数)
EJ(x,y)=x⋅y||x||2+||y||2−x⋅y
(4)Pearson’s correlation皮尔森相关系数:
corr(x,y)=SxySxSy=cov(x,y)Dx−−−√Dy−−−√
Sxy=1n−1∑nk=1(xk−x¯)(yk−y¯)=E(XY)−E(X)E(Y)—协方差
Sx=1n−1∑nk=1(xk−x¯)2−−−−−−−−−−−−−−−√–标准差
D(x)=∑ni=1(xi−x¯)(xi−x¯)n−1
(5)马氏距离Mahalanobis
处理除值域不同外,当某些属性之间还相关时,如何计算距离,马氏距离在处理两个属性相关之间的距离时较欧氏距离更加考虑了相关性:
mahalanobis(x,y)=(x−y)∑−1(x−y)T
∑−1表示是协方差矩阵的逆
(6)加权的闵可夫斯基距离:
d=(∑i=0nwk|xk−yk|r)1r
以上。
相关文章推荐
- 数据挖掘之Apriori算法详解和Python实现代码分享
- 详解BI/数据分析/数据挖掘/业务分析概念 7fe0
- Sedgewick之巨著《算法》,与高德纳TAOCP一脉相承
- 普通最小二乘法的推导证明
- 最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用2
- 数据挖掘项目的特征和关键环节
- 聚类算法总结
- 一位数据挖掘成功人士给数据挖掘在读研究生的建议
- 数据挖掘网上资料大全
- 数据挖掘技术与用户知识获取
- Data mining 数据挖掘
- 数据挖掘
- 大数据,且行且思( 文/ 占超群)
- HUNTER
- kmeans python版
- 数据挖掘-聚类-K-means算法Java实现
- 数据挖掘书籍
- 浅谈R语言的面向对象编程
- 基于R的xgboost
- 长期招聘:个性化推荐