集体智慧编程中的分级聚类学习
2016-10-08 19:09
447 查看
本人比较笨,下面写下看过这本书这一节后的思路。
处理的数据格式是data,是一个列表,列表元素是列表,子列表为每个样本的向量表示形式。
思路:
1.把所有点做成聚类,放入到初始聚类集clust(列表)中。
clust=[bicluster(row[i],id=i) for i in range(len(rows))] #bicluster是一个表示聚类的类class
2.遍历每一个配对,寻找最小距离,将最小距离的两个聚类,组成一个聚类
判断条件:聚类集的长度大于1,(每次聚类两个。生成一个,删除两个,所以总数一直在减小)
每次都是通过令lowestpair=(0,1),closest=distance(clust[0].vec,clust[1].vec)
3.字典distances用来存储每两个点的相似度距离值{(id1,id2):sim,......} 如果某个点对不在distances中,则放进去
4.比对当前两点i与j的距离d是否小于closest,如果小于,则令closest=d,lowestpair=(i,j)
两层for循环后,就得到了距离最小的对(lowestpair[0],lowestpair[1])
5.计算新的聚类,即两个点的向量分量的平均值,并用bicluster构建新聚类,它的编号为currentclusterid为负数,新生成的聚类都用负数表示
6.不在原始的集合的聚类,其id都为负数,删除lowestpair[0],lowestpair[1]对应的原始聚类,并添加新的聚类
代码如下所示:
class bicluster:
def __init__(self,vec,left=None,right=None,distance=0.0,id=None):
self.left=left
self.vec=vec
self.right=right
self.distance=distance
self.id=id
def hcluster(data,distance=pearson):
distances={}
currentclusterid=-1
clust=[bicluster(data[i],id=i) for i in range(len(data))]
while(len(clust)>1):
lowestpair=(0,1)
closest=distance(clust[0].vec,clust[1].vec)
for i in range(len(clust)):
for j in range(i+1,len(clust)):
if (clust[i].id,clust[j].id) not in distances:
distances[(clust[i].id,clust[j].id)]=distance(clust[i].vec,clust[j].vec)
d=distance(clust[i].vec,clust[j].vec)
if d<closest:
closest=d
lowestpair=(i,j)
mergevec=[(clust[lowestpair[0]].vec[i]+clust[lowestpair[1]].vec[i])/2.0 for i in range(len(clust[0].vec))]
newcluster=bicluster(mergevec,clust[lowestpair[0]],clust[lowestpair[1]],distance=closest,id=currentclusterid)
currentclusterid-=1
del clust[lowestpair[1]]
del clust[lowestpair[0]]
clust.append(newcluster)
return clust[0]
处理的数据格式是data,是一个列表,列表元素是列表,子列表为每个样本的向量表示形式。
思路:
1.把所有点做成聚类,放入到初始聚类集clust(列表)中。
clust=[bicluster(row[i],id=i) for i in range(len(rows))] #bicluster是一个表示聚类的类class
2.遍历每一个配对,寻找最小距离,将最小距离的两个聚类,组成一个聚类
判断条件:聚类集的长度大于1,(每次聚类两个。生成一个,删除两个,所以总数一直在减小)
每次都是通过令lowestpair=(0,1),closest=distance(clust[0].vec,clust[1].vec)
3.字典distances用来存储每两个点的相似度距离值{(id1,id2):sim,......} 如果某个点对不在distances中,则放进去
4.比对当前两点i与j的距离d是否小于closest,如果小于,则令closest=d,lowestpair=(i,j)
两层for循环后,就得到了距离最小的对(lowestpair[0],lowestpair[1])
5.计算新的聚类,即两个点的向量分量的平均值,并用bicluster构建新聚类,它的编号为currentclusterid为负数,新生成的聚类都用负数表示
6.不在原始的集合的聚类,其id都为负数,删除lowestpair[0],lowestpair[1]对应的原始聚类,并添加新的聚类
代码如下所示:
class bicluster:
def __init__(self,vec,left=None,right=None,distance=0.0,id=None):
self.left=left
self.vec=vec
self.right=right
self.distance=distance
self.id=id
def hcluster(data,distance=pearson):
distances={}
currentclusterid=-1
clust=[bicluster(data[i],id=i) for i in range(len(data))]
while(len(clust)>1):
lowestpair=(0,1)
closest=distance(clust[0].vec,clust[1].vec)
for i in range(len(clust)):
for j in range(i+1,len(clust)):
if (clust[i].id,clust[j].id) not in distances:
distances[(clust[i].id,clust[j].id)]=distance(clust[i].vec,clust[j].vec)
d=distance(clust[i].vec,clust[j].vec)
if d<closest:
closest=d
lowestpair=(i,j)
mergevec=[(clust[lowestpair[0]].vec[i]+clust[lowestpair[1]].vec[i])/2.0 for i in range(len(clust[0].vec))]
newcluster=bicluster(mergevec,clust[lowestpair[0]],clust[lowestpair[1]],distance=closest,id=currentclusterid)
currentclusterid-=1
del clust[lowestpair[1]]
del clust[lowestpair[0]]
clust.append(newcluster)
return clust[0]
相关文章推荐
- “集体智慧编程”之第三章:“发现群组”的 分级聚类
- 集体智慧编程学习之聚类系统
- 集体智慧编程学习笔记--搜索引擎
- 集体智慧编程_聚类
- 集体智慧编程学习之推荐系统
- 集体智慧编程学习之决策树
- 集体智慧编程学习之决策树
- 集体智慧编程学习笔记--决策树
- “集体智慧编程”之第三章:带偏好条件的聚类及聚类的展示方式
- “集体智慧编程”之第三章:“发现群组”的 列聚类
- 矩阵特征集体智慧编程学习之非负矩阵因式分解
- 集体智慧编程学习笔记之文档过滤
- 集体智慧编程学习笔记--第二章
- 集体智慧编程学习之决策树
- 【集体智慧编程 学习笔记】 协同过滤技术
- 集体智慧学习编程—— 学习笔记一
- 算法总结(集体编程智慧) - 聚类、优化
- 【集体智慧编程 学习笔记】 Euclidean距离和Pearson相关系数
- 集体智慧编程学习之优化系统
- 集体智慧编程学习之核方法