Hive优化--文件压缩格式
2016-10-20 23:32
344 查看
1.1. Hive表文件及中间文件使用合适的文件压缩格式
GZip和Snappy,这两种压缩算法在大数据应用中最常见,适用范围最广,压缩率和速度都较好,读取数据也不需要专门的解压操作,对编码来说透明。压缩率跟数据有关,通常从2到5不等;两种算法中,GZip的压缩率更高,但是消耗CPU更高,Snappy的压缩率和CPU消耗更均衡。
对于存储资源受限或客户要求文件必须压缩的场景,可考虑使用以上两种压缩算法对表文件及中间文件进行压缩。
相关文章推荐
- hive优化记录----合并小文件压缩输出
- 转: 更高的压缩比,更好的性能–使用ORC文件格式优化Hive
- Hive优化--文件格式
- hive各种文件格式与压缩方式的结合测试
- MR 代码优化及Hive优化(Hive中的存储格式与压缩格式)
- Hive 文件格式 & Hive操作(外部表、内部表、区、桶、视图、索引、join用法、内置操作符与函数、复合类型、用户自定义函数UDF、查询优化和权限控制)
- Hive编程指南10---其他文件格式和压缩方法
- Hive支持的文件格式与压缩算法(1.2.1)
- hive优化-文件格式-rcfile-textfile-seqfile
- Hive中压缩设置 和 Hive文件存储格式及使用
- Hive 文件压缩存储格式(STORED AS)
- Guardio全能优化3.4.0.420:木马/间谍专杀,支持Zip/GZip/Tar/Cab/Rar等压缩格式文件,全面杀除超过30,000种木马
- hive学习之四:hive文件格式以及压缩编码
- hive-文件格式和压缩方法
- 优化extjs速度:将js格式文件压缩成gzjs格式来读取
- Linux下常见文件格式的压缩、解压小结
- 解决关于“这个压缩文件格式未知或者数据已经被损坏”
- 23.1.4 流媒体文件的压缩格式
- 提高页面相应速度之压缩优化js和css文件
- bmp文件格式压缩的代码