您的位置：首页 > 其它

关于赫夫曼编码的介绍

2014-12-31 09:02 176 查看

赫夫曼编码(huffman codes)是一种非常有用的数据压缩方法，通常能将数据压缩20%~90%。从具体问题出发，假设我们有一包含10000个字符的文件，这些字符仅由6个不同的字符组成，就设这6个字符分别为“abcdef”，下面的表给出了这6个字符在整个文件中的占比，和两种不同的编码方式。

-------------- a b c d e f
Frequency (in thousands) 45 13 12 10 9 5
Fixed-length codeword 000 001 010 011 100 101
Variable-length codeword 0 101 100 111 1101 1100
上例中固定长度的编码方式最少需要三位。那么整个文件的长度大小为300,000bits，而对于可变长度的编码方式其使用大小为：

(45 * 1 + 13 * 3 + 12 * 3 + 16 * 3 + 9 * 4 + 5 * 4) · 1,000 = 224,000bits

使用第二种编码方式能比第一种方式节约大约25%的空间。上述变长编码的方式实际上是一种名为前缀编码的编码方式。

前缀编码


--------------	a	b	c	d	e	f
Frequency (in thousands)	45	13	12	10	9	5
Fixed-length codeword	000	001	010	011	100	101
Variable-length codeword	0	101	100	111	1101	1100

如果某种编码方案中，没有一个编码会是其它编码的前缀，则称这种编码方案为前缀编码。有一条已证明的结论，任何由字符编码技术所获得的最佳压缩数据，也可以由前缀编码来获得。

前缀编码的编码很容易，只需将文件中的字符用对应的编码表示即可。解码也容易完成，因为其性质，可以直接从头至尾按编码与字符的对应关系翻译即可。

在解码过程中，为了方便和提高效率，可以用一颗二叉树来提供帮助。在这棵二叉树中，0表示往左走，1表示往右走。字符则被放置在树的叶子上。所以从根节点到叶子的路径表示了该字符的编码。这样一颗树对于解码时很有帮助的。下图是上面的例子中的两种编码对应的二叉树：

赫夫曼编码

赫夫曼编码是指赫夫曼提供的一种构建最优前缀编码的方法。其方法是总选取权重最小的两个结点x和y合并成一个结点z,并用z代替它们，再从中选出两个权重最小的结点…如是反复。图解：

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航