hive sequencefile 和rcfile 效率对比
2012-09-17 17:32
435 查看
源数据放在test1表中,大小 26413896039 Byte。
创建sequencefile 压缩表test2,使用insert overwrite table test2 select ...语句将test1数据导入 test2 ,设置配置项:
set hive.exec.compress.output=true;
set mapred.output.compress=true;
set mapred.output.compression.codec=com.hadoop.compression.lzo.LzoCodec;
SET io.seqfile.compression.type=BLOCK;
set io.compression.codecs=com.hadoop.compression.lzo.LzoCodec;
导入耗时:98.528s。另压缩类型使用默认的record,耗时为418.936s。
创建rcfile 表test3 ,同样方式导入test3。
set hive.exec.compress.output=true;
set mapred.output.compress=true;
set mapred.output.compression.codec=com.hadoop.compression.lzo.LzoCodec;
set io.compression.codecs=com.hadoop.compression.lzo.LzoCodec;
导入耗时 253.876s。
以下为其他统计数据对比:
因为原始数据中均是小文件,所以合并后文件数大量减少,但是hive实现的seqfile 处理竟然还是原来的数目。rcfile 使用lzo 压缩效果明显,7倍的压缩比率。查询数据中读入数据因为这里这涉及小部分数据,所以rcfile的表读入数据仅是seqfile的4%.而读入行数一致。
创建sequencefile 压缩表test2,使用insert overwrite table test2 select ...语句将test1数据导入 test2 ,设置配置项:
set hive.exec.compress.output=true;
set mapred.output.compress=true;
set mapred.output.compression.codec=com.hadoop.compression.lzo.LzoCodec;
SET io.seqfile.compression.type=BLOCK;
set io.compression.codecs=com.hadoop.compression.lzo.LzoCodec;
导入耗时:98.528s。另压缩类型使用默认的record,耗时为418.936s。
创建rcfile 表test3 ,同样方式导入test3。
set hive.exec.compress.output=true;
set mapred.output.compress=true;
set mapred.output.compression.codec=com.hadoop.compression.lzo.LzoCodec;
set io.compression.codecs=com.hadoop.compression.lzo.LzoCodec;
导入耗时 253.876s。
以下为其他统计数据对比:
rows | 类型 | 合并耗时 | 文件数 | 总数据大小 | count(1) | 基于domain、referer求点击的top100 |
238610458 | 原始数据 | 1134 | 26413896039 | 66.297s | ||
238610458 | seq | 98.528(block) 418.936(record) | 1134 | 32252973826 | 41.578 | 394.949s(读入数据:32,253,519,280,读入行数:238610458) |
238610458 | rcfile | 253.876 s | 15 | 3765481781 | 29.318 | 286.588s(读入数据:1,358,993,读入行数:238610458 |
相关文章推荐
- hive sequencefile 和rcfile 效率对比
- hive存储格式sequencefile和rcfile的对比
- hive存储格式sequencefile和rcfile的对比
- php读取网络文件 curl, fsockopen ,file_get_contents 几个方法的效率对比
- Hive使用SequenceFile存储数据
- Hive中distinct和Group by效率对比及处理方式
- hadoop和hive压缩格式对比【数据源建议RCFile+bz或RCFile+gz的方式可以节省空间,计算过程建议RCFile+snappy,空间换时间】
- HIve的rcfile文件存储格式的介绍以及如何将HIve的textfile文件存储格式转化为rcfile文件格式
- php读取网络文件(curl, fsockopen ,file_get_contents 几个方法的效率对比)
- php读取网络文件 curl, fsockopen ,file_get_contents 几个方法的效率对比
- Spark SQL & Spark Hive编程开发, 并和Hive执行效率对比
- hive sequencefile导入文件遇到FAILED: SemanticException Unable to load data to destination table. Error: The file that you are trying to load does not match the file format of the destination table.错误
- MapReduce (hive表SequenceFile的结果做输入)、MultipleOutputs和Reduce端迭代iterable的一些说明
- php读取网络文件 curl, fsockopen ,file_get_contents 几个方法的效率对比
- hive 连接查询sql对比效率
- RCFile SequenceFile and Avro comparison Test
- hive 连接查询sql对比效率
- php读取网络文件 curl, fsockopen ,file_get_contents 几个方法的效率对比
- hive使用orcfile parquet sequencefile
- hive 存储格式和压缩方式 一:Snappy + SequenceFile