您的位置：首页 > 其它

Programming Collective Intelligence笔记 - Discovering Groups

2007-12-25 17:43 447 查看

1.1. Hierarchical Clustering
使用类似于Huffman编码时的合并方式。假设有N个节点，每个节点的值都是一个向量。通过第二章介绍的寻找相似物品的公式，我们可以计算任何两个向量间的距离。把距离最小的两个向量合并，生成一个新的节点，该节点的向量值是被合并的两个节点的向量的平均。一直以这种方式进行合并，最终就可以生成一棵树。
该算法的优点是结果唯一，但缺点是效率低，因为每次合并后都需要重新计算向量间的距离。

1.2. K-Means Clustering
该算法不会生成树，而只是把相关的数据分划到K个列表而已。K是一个参数，表示希望分割成的组合数。假设我们有N个节点（N1,N2,…），每个节点的值都是一个向量。根据K值的不同，我们随机的生成K个向量（K1,K2,…）。然后使用第二章的公式，分别计算每个节点（Nx）跟这K个随机向量（Ky）的距离，如果Nx与Ky的距离最小，则把Nx划入第y个分划之中。
当所有的节点都划分以后，我们重新计算K值，Ky的计算方式是把划分到y的所有向量求平均，把平均值作为新的Ky值。然后按照之前的步骤，把所有的节点（Nx）基于这些新的K值进行分划。
经过多次迭代之后，如果分划不再发生变化，则将之作为最终结果。
该算法的优点是速度快，但缺点是结果不唯一，结果依赖于起始的K个随机值的选取。

1.3. Multidimensional Scaling
简单来说，这个不是用来做分类的算法，而是如何可视化的显示节点的方法。他能够根据相似度把节点分布在一个多维的空间当中。节点的距离使用第二章的公式计算。
假定这里我们是希望把所有节点显示在2维平面当中。开始时我们可以把节点在2维平面当中随机布置。然后计算出他们之间的距离，把两点之间的真实距离和实际距离做一个比较，得出一个偏差，然后根据这个偏差对节点的位置进行调整。
调整以后，重新计算距离，重新计算偏差，重新调整…
当某一次调整后的误差比调整前的误差大时，或者调整的次数大于我们设定的最大调整数时，调整停止。详细的调整算法，可以参考书。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航