您的位置:首页 > 其它

无监督学习(unsupervised learning) 1.线性方法

2017-04-15 16:51 302 查看

无监督学习(unsupervised learning) 1.线性方法

1 unspervised learning

Reduction(化繁为简):Clustering & Dimension,只有输入

Generation(无中生有):只有输出

2 Clustering

How many clusters?

K-Means:

将X={x1,x2,…,xN}聚成K类

随机初始化聚类中心ci,i=1,2,…,K

对每一个xn,计算它离每一个聚类中心的距离bin,它离的最近的即为它的类

更新聚类中心:ci=∑xnbinxn/∑xnbin

重复以上几步

Hierarchical Agglomerative Clustering (HAC)

step 1:build a tree,两两算相似度,相似度最大的两个合并,重复……

step 2:pick a threshold,切分K类

3 dimension reduction

Distributed Representation:每个对象使用一个向量表示,而不仅仅是一个类

MNIST:描述一个数字不需要28*28的向量

Feature Selection:

Principle component analysis(PCA): z=Wx,线性降维

投影得到的z越大越好

投影到d维,w1,…,wd相互正交,W=[w1,…,wd]为正交矩阵

z1=w1x,z¯1=w1x¯

Var(z1)=∑z1(z1−z¯1)2=wT1∑(x−x¯)(x−x¯)Tw1=wT1Cov(x)w1=wT1Sw1

找到w1 使得 wT1Sw1达到最大,且wT1w1=1

使用Lagrange multiplier:g(w1)=wT1Sw1−α(wT1w1−1),求偏导数得Sw1=αw1,w1即为S的特征向量。wT1Sw1=α,α即为S的最大的特征值。

找到w1 使得 wT1Sw1达到最大,且wT1w1=1,wT2w1=0

……解得β=0,w2是第二大的特征值对应的特征向量。

……

cov(z)=WSWT=[λ1e1,…,λKeK]

4 PCA——another point of view

x−x¯=c1u1+…+cKuK=x^

Reconstruction error:L=min{u1,…,uK}=∑||(x−x¯)−(∑k=1Kckuk)||2

SVD分解:Xm∗n=Um∗k∑k∗kVk∗n

LDA:考虑labelled data的降维(监督)

PCA的弱点:1、unsupervised;2、linear

需要多少principle components?

计算每个特征值的ratio

5 Non-negative matrix factorization

NMF非负矩阵分解,所有的参数和component均为非负

minimize error:XM∗N≈AM∗KBK∗N

L=∑(i,j)(rirj−nij)2,不考虑缺失的数据

用于推荐系统(Recommender systems)

→L=∑(i,j)(rirj+bi+bj−nij)2

应用:Latent Semantic Analysis 潜语义分析LSA

应用:Latent Dirichlet allocation 主题模型LDA
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐