您的位置:首页 > 移动开发

hadoop和hive压缩格式对比【数据源建议RCFile+bz或RCFile+gz的方式可以节省空间,计算过程建议RCFile+snappy,空间换时间】

2016-01-04 11:27 573 查看
hadoop中4种压缩格式的特征的比较
http://my.oschina.net/mkh/blog/335395
Hive数据压缩
http://blog.csdn.net/cnbird2008/article/details/9182869
hive 中间结果和结果数据压缩
http://bupt04406.iteye.com/blog/1152539 http://m.blog.csdn.net/blog/chenyi8888/14281939
在hive中使用压缩需要灵活的方式,如果是数据源的话,采用RCFile+bz或RCFile+gz的方式,这样可以很大程度上节省磁盘空间;

而在计算的过程中,为了不影响执行的速度,可以浪费一点磁盘空间,建议采用RCFile+snappy的方式,这样可以整体提升hive的执行速度。

至于lzo的方式,也可以在计算过程中使用,只不过综合考虑(速度和压缩比)还是考虑snappy适宜。

hadoop,hive启用lzo压缩和创建lzo索引
http://slaytanic.blog.51cto.com/2057708/1162287/
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: