MapRed程序map个数控制分析
2015-10-28 10:31
302 查看
前言:
我们在线上跑的MapRed程序和Hive程序,Map数到底怎么控制?这个问题一直比较模糊,这次有机会深入代码里面去看,才了解到其实MapReduce针对不同输入格式有不同的判断文件大小的规则以及文件切片和合并的方式。下面就来具体了解一下FileInputFormat和CompositeInputFormat两种主流输入格式的处理细节。首先在这里提一下MapReduce框架是默认一个文件Block对应一个Map的输入的,所以在这个背景下才有不同的输入格式自己的有针对性的文件切分或合并方式。
CompositeInputFormat格式:
这个是Hive读取所有Textfile格式的文件是用的默认输入格式:
min:128m,max:256m,split按256m划分。
min:128m,max:0,split按128m划分。
FileInputFormat输入格式:
TextInputFormat,KeyValueTextInputFormat等文本格式的文件都使用这种方式切分Map的输入文件:
相关文章推荐
- 9月国内网民上网高峰时段为晚上8点 比例增至6.36%
- AllowOverride以及Options相关指令
- Android之记录几个Uri的Intent.
- Java微信插件开发培训—10月28日 晚九点—腾讯课堂
- 一些常用的东西
- LintCode_Fizz Buzz
- Windows下Nginx+Tomcat整合的安装与配置
- iOS开发json解析串打包
- UINavigationViewController显示新页面后,隐藏下面的TabBar
- Spring整合Junit进行单元测试
- 使用tar+lz4/pigz+ssh更快的数据传输
- Android ValueAnimator和ObjectAnimator的高级用法(代码实现)
- 黑马程序员****OC语言基础****NSString类的概念和理解
- 创建以Windows 2008 R2 SP1为父虚拟机的链接克隆自动场
- 磁盘预读
- 结构体
- iOS 常用的数据存储方式
- Linux文本命令集锦
- window打开服务的dos命令
- webapp