Hive-Snappy压缩格式设置与规范
2015-05-09 20:50
1506 查看
Author: FuRenjie
1、Hive启动输出压缩
在hive中先检查hive的输出压缩是否启动(默认为false),设置为true:set hive.exec.compress.output=true;
2、主流压缩格式比较
以下是Google几年前发布的一组测试数据(数据有些老了,有人近期做过测试的话希望能共享出来):Algorithm | % remaining | Encoding | Decoding |
GZIP | 13.4% | 21 MB/s | 118 MB/s |
LZO | 20.5% | 135 MB/s | 410 MB/s |
Zippy/Snappy | 22.2% | 172 MB/s | 409 MB/s |
其中:
1)GZIP的压缩率最高,但是其是CPU密集型的,对CPU的消耗比其他算法要多,压缩和解压速度也慢;
2)LZO的压缩率居中,比GZIP要低一些,但是压缩和解压速度明显要比GZIP快很多,其中解压速度快的更多;
3)Zippy/Snappy的压缩率最低,而压缩和解压速度要稍微比LZO要快一些。
综合考虑,选择Snappy压缩,在Hadoop(2.0)配置目录下的mapred-site.xml中做如下配置:
Snappy压缩格式
<!--
For Snappy
-->
<property>
<name>mapreduce.map.output.compress</name>
<value>true</value>
</property>
<property>
<name>mapred.map.output.compress.codec</name>
<value>org.apache.hadoop.io.compress.SnappyCodec</value>
<description>
The Compress Format of MapReduceMiddle Result.
</description>
</property>
<property>
<name>mapreduce.output.fileoutputformat.compress</name>
<value>true</value>
</property>
<property>
<name>mapreduce.output.fileoutputformat.compress.codec</name>
<value>org.apache.hadoop.io.compress.SnappyCodec</value>
<description>
The Compress Format of MapReduceResult.
</description>
</property>
<property>
<name>mapreduce.output.fileoutputformat.compress.type</name>
<value>BLOCK</value>
</property>
相关文章推荐
- hadoop和hive压缩格式对比【数据源建议RCFile+bz或RCFile+gz的方式可以节省空间,计算过程建议RCFile+snappy,空间换时间】
- hive 存储格式和压缩方式 一:Snappy + SequenceFile
- Hive中压缩设置 和 Hive文件存储格式及使用
- hive处理snappy压缩文件
- MR 代码优化及Hive优化(Hive中的存储格式与压缩格式)
- Hive编程指南10---其他文件格式和压缩方法
- Hive 文件压缩存储格式(STORED AS)
- idea 中设置成公司规范的代码格式
- hive各种文件格式与压缩方式的结合测试
- Hive格式各种格式下不同压缩算法的比较
- HBase修改压缩格式及Snappy压缩实测分享
- Hive压缩格式
- hive学习之四:hive文件格式以及压缩编码
- HBase修改压缩格式及Snappy压缩实测分享
- c#生成AVI自动设置压缩格式,不调用AVISaveOptions
- HIVE 之压缩格式
- Hive格式各种格式下不同压缩算法的比较
- HBase修改压缩格式及Snappy压缩实测分享
- HBase修改压缩格式及Snappy压缩实测分享
- HBase修改压缩格式及Snappy压缩实测分享