hadoop自定义InputFormat
2012-12-04 18:22
183 查看
接触hadoop一年多了,但是自己一直没有用hadoop写过什么程序。最近,由于项目需要,将一些文件转换成hadoop的MapFile。网上的例子基本是直接处理文本输入,自定义输入格式的见到两个,但是都是用的旧的API,用新API写的还没有,可能高手不屑于写这些。但是处理自定义输入是每个用hadoop的人都要学会才行的,因为不是每个人的输入都是文本文件。
数据输入是hadoop的第一步,不能读自己的数据,后面的处理就无从谈起。文本格式处理起来容易些,对于二进制格式的文件,虽然hadoop有一个SequenceFileInputFormat,可以先把自己的数据转成SequenceFile,再处理,但是这样要多一倍的处理时间、存储空间。无奈之下,参考了hadoop的源代码,自己写了个ConverterInputFormat,在这里贴出来,供大家参考。
代码是基于hadoop 0.20的,其中的FetcherOutput是用Java的DataOutputStream写入到本地磁盘的,可以换成自己想要的格式。
ConvertertRecordReader好像必须有个默认的构造器。
本人也是新学,对hadoop也不是很熟悉,如果有更好的方式,恳请赐教。
This entry was posted in
Hadoop and tagged Hadoop by
Randy. Bookmark the
permalink.
数据输入是hadoop的第一步,不能读自己的数据,后面的处理就无从谈起。文本格式处理起来容易些,对于二进制格式的文件,虽然hadoop有一个SequenceFileInputFormat,可以先把自己的数据转成SequenceFile,再处理,但是这样要多一倍的处理时间、存储空间。无奈之下,参考了hadoop的源代码,自己写了个ConverterInputFormat,在这里贴出来,供大家参考。
代码是基于hadoop 0.20的,其中的FetcherOutput是用Java的DataOutputStream写入到本地磁盘的,可以换成自己想要的格式。
ConvertertRecordReader好像必须有个默认的构造器。
This entry was posted in
Hadoop and tagged Hadoop by
Randy. Bookmark the
permalink.
One thought on “hadoop自定义InputFormat”
相关文章推荐
- hadoop mapreduce 自定义InputFormat
- Hadoop自定义InputFormat
- Hadoop:自定义输入文件格式类InputFormat
- hadoop编程小技巧(5)---自定义输入文件格式类InputFormat
- 自定义hadoop的InputFormat
- Hadoop自定义InputFormat
- [转]自定义hadoop map/reduce输入文件切割InputFormat
- hadoop自定义文件输出格式
- hadoop学习;自定义Input/OutputFormat;类引用mapreduce.mapper;三种模式
- Hadoop MapReduce处理海量小文件:自定义InputFormat和RecordReader
- Hadoop实现自定义InputFormat按单个文件Map
- Hadoop mapreduce自定义分组RawComparator
- hadoop自定义数据类型
- hadoop map reduce自定义数据类型时注意顺序,否则报错。
- Hadoop自定义类型处理手机上网日志
- hadoop提交作业自定义排序和分组
- hadoop-1.0.0的hadoop-streaming-1.0.0.jar还是按照以前的api编写/如何将自定义InputFormat加入Streaming
- hadoop InputFormat解析
- 在Hadoop的streaming中使用自定义的inputformat和outputformat
- Hadoop 之 InputFormat