关于赫夫曼编码的介绍
2014-12-31 09:02
176 查看
赫夫曼编码(huffman codes)是一种非常有用的数据压缩方法,通常能将数据压缩20%~90%。从具体问题出发,假设我们有一包含10000个字符的文件,这些字符仅由6个不同的字符组成,就设这6个字符分别为“abcdef”,下面的表给出了这6个字符在整个文件中的占比,和两种不同的编码方式。
-------------- | a | b | c | d | e | f |
---|---|---|---|---|---|---|
Frequency (in thousands) | 45 | 13 | 12 | 10 | 9 | 5 |
Fixed-length codeword | 000 | 001 | 010 | 011 | 100 | 101 |
Variable-length codeword | 0 | 101 | 100 | 111 | 1101 | 1100 |
(45 * 1 + 13 * 3 + 12 * 3 + 16 * 3 + 9 * 4 + 5 * 4) · 1,000 = 224,000bits
使用第二种编码方式能比第一种方式节约大约25%的空间。上述变长编码的方式实际上是一种名为前缀编码的编码方式。
前缀编码如果某种编码方案中,没有一个编码会是其它编码的前缀,则称这种编码方案为前缀编码。有一条已证明的结论,任何由字符编码技术所获得的最佳压缩数据,也可以由前缀编码来获得。
前缀编码的编码很容易,只需将文件中的字符用对应的编码表示即可。解码也容易完成,因为其性质,可以直接从头至尾按编码与字符的对应关系翻译即可。
在解码过程中,为了方便和提高效率,可以用一颗二叉树来提供帮助。在这棵二叉树中,0表示往左走,1表示往右走。字符则被放置在树的叶子上。所以从根节点到叶子的路径表示了该字符的编码。这样一颗树对于解码时很有帮助的。下图是上面的例子中的两种编码对应的二叉树:
赫夫曼编码
赫夫曼编码是指赫夫曼提供的一种构建最优前缀编码的方法。其方法是总选取权重最小的两个结点x和y合并成一个结点z,并用z代替它们,再从中选出两个权重最小的结点…如是反复。图解:相关文章推荐
- 关于 Blog 和 RSS 的全面介绍(转)
- 关于Intel®迅驰™移动计算技术的介绍
- 关于 Blog 和 RSS 的全面介绍
- 简单介绍关于WML文件的概念WML Decks
- [转] 关于 Blog 和 RSS 的全面介绍
- 博客文化(2)转载 ——关于 Blog 和 RSS 的全面介绍
- 关于Linux下的帧缓冲介绍
- 关于VM的介绍
- 关于 Blog 和 RSS 的全面介绍
- 关于奥黛丽赫本一生的详细介绍
- 关于 Blog 和 RSS 的全面介绍
- 一个关于工作流的网站介绍
- WML教程2:简单介绍关于WML文件的概念WML Decks
- 关于多线程程序中锁定内存的一些介绍
- 关于VCL的编写 (二) 简单介绍一下VCL消息传递
- 关于 Blog 和 RSS 的全面介绍
- 今天看了一篇oracle tip,关于如何获得行锁时跳过已被锁的行,oracle8i的sql reference居然没有关于这个选项的介绍,特此记录下来。
- MSDN关于.net 2.0 beta 版本中范型实现的介绍
- 关于蜂产品保健的一些介绍
- 简单介绍关于WML文件的概念WML Decks