hadoop streaming 多路输出 [转载]
2015-11-02 14:58
453 查看
转载 http://www.cnblogs.com/shapherd/archive/2012/12/21/2827860.html
hadoop 支持reduce多路输出的功能,一个reduce可以输出到多个part-xxxxx-X文件中,其中X是A-Z的字母之一,程序在输出<key,value>对的时候,在value的后面追加"#X"后缀,比如#A,输出的文件就是part-00000-A,不同的后缀可以把key,value输出到不同的文件中,方便做输出类型分类, #X仅仅用做指定输出文件后缀, 不会体现到输出的内容中
所有标准输出的value中都要加上 #X后缀,X代表A-Z, 不然会报invalid suffix错误
在red脚本中可以所以的输出都加上后缀, 这样输出就是分part的了,比如大数据diff对比的脚本
map.sh如下:
red.sh如下
我的两个大数据没有diff, 所以输出就是:
part-00000-C
part-00000-D
part-00000-E
part-00001-C
part-00001-D
part-00001-E
part-00002-C
part-00002-D
part-00002-E
没有A和B结尾的
reduce的输入key和value的分隔符默认是\t, 如果输出中没有\t,reduce脚本会把整行当作key, value就是空的,这时如果加了#X,会报invalid suffix错误,因为#X作为了key的一部分,这种问题一种是保证你的key和value是按照\t分隔的, 一种是指定自己想要的分隔符。
hadoop 支持reduce多路输出的功能,一个reduce可以输出到多个part-xxxxx-X文件中,其中X是A-Z的字母之一,程序在输出<key,value>对的时候,在value的后面追加"#X"后缀,比如#A,输出的文件就是part-00000-A,不同的后缀可以把key,value输出到不同的文件中,方便做输出类型分类, #X仅仅用做指定输出文件后缀, 不会体现到输出的内容中
使用方法
启动脚本中需要指定-outputformat org.apache.hadoop.mapred.lib.SuffixMultipleTextOutputFormat或者-outputformat org.apache.hadoop.mapred.lib.SuffixMultipleSequenceFileOutputFormat, 输出就会按照多路输出的方式进行分文件输出所有标准输出的value中都要加上 #X后缀,X代表A-Z, 不然会报invalid suffix错误
$HADOOP_HOME_PATH/bin/hadoop streaming \ -Dhadoop.job.ugi="$HADOOP_JOB_UGI" \ -file ./map.sh \ -file ./red.sh \ -file ./config.sh \ -mapper "sh -x map.sh" \ -reducer "sh -x red.sh" \ -input $NEW_INPUT_PATH \ -input $OLD_INPUT_PATH \ -output $OUTPUT_PATH \ -jobconf stream.num.map.output.key.fields=1 \ -partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner \ -outputformat org.apache.hadoop.mapred.lib.SuffixMultipleTextOutputFormat \ -jobconf mapred.job.name="test-shapherd-dist-diff" \ -jobconf mapred.job.priority=HIGH \ -jobconf mapred.job.map.capacity=100 \ -jobconf mapred.job.reduce.capacity=100 \ -jobconf mapred.reduce.tasks=3
在red脚本中可以所以的输出都加上后缀, 这样输出就是分part的了,比如大数据diff对比的脚本
map.sh如下:
source ./config.sh awk 'BEGIN{ } { if(match("'${map_input_file}'","'$OLD_INPUT_PATH'")) { print $0"\t"0 next } if(match("'${map_input_file}'","'$NEW_INPUT_PATH'")) print $0"\t"1 }' exit 0
red.sh如下
awk -F"\t" 'BEGIN{ key="" flag=0 num=0 old_num=0 new_num=0 diff_num=0 } { if($NF == "0") old_num++ else new_num++ if($1 != key) { if(key != "") { if(num <= 1) { diff_num++ if(flag == "0") print $0"#A" else print $0"#B" } } key=$1 flag=$NF num=1 next } if(key == $1) { num++ next } } END{ if(num == 1) { if(flag == "0") print $0"#A" else print $0"#B" } print old_num"\tshapherd#C" print new_num"\tshapherd#D" print diff_num"\tshapherd#E" }' exit 0
我的两个大数据没有diff, 所以输出就是:
part-00000-C
part-00000-D
part-00000-E
part-00001-C
part-00001-D
part-00001-E
part-00002-C
part-00002-D
part-00002-E
没有A和B结尾的
注意事项
多路输出最多支持26路, 也就是字母只能是A-Z范围。reduce的输入key和value的分隔符默认是\t, 如果输出中没有\t,reduce脚本会把整行当作key, value就是空的,这时如果加了#X,会报invalid suffix错误,因为#X作为了key的一部分,这种问题一种是保证你的key和value是按照\t分隔的, 一种是指定自己想要的分隔符。
相关文章推荐
- linux 文件夹和文件的创建和删除操作
- Linux内核和用户空间应用程序的接口—系统调用
- linux编程获取ip地址
- 一些Linux优化方法
- Docker -CentOS 6.5上安装
- LINUX 下GCC编译C、C++入门
- Linux基础(四)交换分区的大小应当与系统物理内存的大小
- 找不到varnishstat、varnishtop、varnishhist等命令
- Linux删除乱码文件名或者目录名
- Linux基础(三)fork()进程
- 【深度学习】深度学习中监督优化入门(A Primer on Supervised Optimization for Deep Learning)
- centos65 安装 脸书的proxygen
- hadoop极简配置
- Linux互斥锁
- shell获取ip地址
- 收藏的网站
- tomcat timeout
- 对sharepoint网站进行预热提高访问速度
- Linux c++ 生成和使用链接库文件
- Aaliyun Linux 64 安装jdk+mysql+tomcat