您的位置：首页 > 其它

有关数据存储和压缩的一点总结

2011-05-03 13:59 211 查看

1、hadoop中有一个WritableUtils.writeVLong方法，此方法对于long型数字进行一个编码以减少实际存储的数据长度。其编码方法如下：

* Serializes a long to a binary stream with zero-compressed encoding.
* For -112 <= i <= 127, only one byte is used with the actual value.
* For other values of i, the first byte value indicates whether the
* long is positive or negative, and the number of bytes that follow.
* If the first byte value v is between -113 and -120, the following long
* is positive, with number of bytes that follow are -(v+112).
* If the first byte value v is between -121 and -128, the following long
* is negative, with number of bytes that follow are -(v+120). Bytes are
* stored in the high-non-zero-byte-first order.

基本的原理是，如果需要写入的数据在-112到127之间的话，直接使用1个byte表示，剩余的16个能够使用一个byte表示的数分别作为后续byte数目长度的标志，因为要区分正负数，所以16个数分别表示整数的1-8byte长度，和负数的1-8byte的长度。

这种编码方式的有点是照顾了绝大多数能够使用一个byte编码的数字，最大的缺点是，两个byte所能编码的数字少了很多，并且两个byte以上长度的编码效率都下降了。

2、一种新的编码方式：

1）对于待编码的long型数字x，如果x是负数，取x=-x

2）确定编码所需bit数，（去掉高位的0直到最高位的bit值为1后的bite数目）

3）按照下表确定所需要的byte数目

(0是编码，s是符号位，xx..是实际的数据）

bit num byte num first byte code

0-6 1 0sxx xxxx

7-13 2 10sx xxxx

14-20 3 110s xxxx

21-27 4 1110 sxxx

28-34 5 1111 0sxx

35-41 6 1111 10sx

42-48 7 1111 110s

49-55 8 1111 1110

56-63 9 1111 1111

4）上表同时给出了第一个byte的编码方式，需要注意的是，当bytenum为8或者9的时候，第二个byte的第一个bit是符号位

3、比较两种编码方式，第二种编码在一个byte时的表达能力不如第一种，但是当需要编码的数据大于1个byte的时候，第二种编码方式都比第一种方法更加优秀，因此在实际的应用中可以根据实际数据的情况选择。

4、编码的目的是减少数据存储量，然后减少数据存储量的最好的方式是压缩，实际的压缩算法已经非常多，而且也已经发展的很成熟，如果需要的话，直接调用即可。

现在的一个问题是，对于一组long型的数值来说，直接存储为8个byte的long然后进行压缩，以及首先进行编码在压缩这两者有多大的差别呢？

经过一天的试验，证明了以下的结论：

1）如果你决定需要压缩了，那么一般来说编码已经不重要，编码所减少的冗余信息量，在压缩的过程中同样能够被消除掉

2）编码的应用场所主要在那些分块压缩的场合，里面需要写入一些元数据信息，如（块的长度等）这是使用编码的方式可以减少数据写入量。另外就是，很多情况下编码已经很大程度上消除了冗余信息，在不压缩的时候，使用编码的方法能在很多的程度上减少数据量，同时也避免了解压缩所需要的资源消耗（解码的代价要比解压的代价小的多）。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航