将集合转成特征矩阵并且使用最小Hash算法构造签名矩阵
2016-01-11 18:31
288 查看
2、如何计算集合的最小hash值呢?
主要也是通过特征矩阵的变换进行计算
3、具体的使用最小hash算法,将一个特征矩阵进行压缩,即构造签名矩阵,签名矩阵的每一列是n个hash函数的值,并且近似估计原始数据的jaccard的值。
实际中是如何计算的呢?
(1)首先自己常见n个h(x)函数 ,并且计算出对于原始行的hash值
(2)h(x)作用于每一行,如果当前的值为0,什么都不做
(3)否则为1的话,则i=1...n h(x)作用于每一个列,并且选择 h(r)与原始值之间教小的那一个。
上面的过程看起来有点复杂,因此下面是一个简单的例子,来解释最小Hash算法,压缩特征矩阵的例子。
相关文章推荐
- Babel转ES5后IE8下的兼容性问题解决方案
- 阅读zepto.js的core中的Core methods
- iOS UI-静态单元格与动态单元格
- Spark MLlib FPGrowth算法,mllibfpgrowth
- PHP--判空
- 硬盘导致系统蓝屏
- MDK编译出现*.axf: Error: L6218E: Undefined symbol 问题解决方法
- Linux 系统应用编程——进程间通信(下)
- 文档的相似性可以使用Shingling算法进行比较
- 【Leetcode】3. Longest Substring Without Repeating Characters
- 选择排序
- Oracle trunc()函数的用法总结
- CodeForces 611A New Year and Days
- linux学习笔记02
- uiautomator基本操作命令
- 从僵尸网络追踪到入侵检测 第5章 使用Honeyd创建防御路由模板
- 蓝桥杯 历届试题 最大子阵
- Atom与markdown
- 基本emmet使用
- 说一说常见的刷单方式-刷单一天能挣多少钱