MapReduce优化----两点瓶颈
2014-03-25 11:45
190 查看
mapreduce程序效率的瓶颈在于两点:
1:计算机性能
2:I/O操作优化
优化无非包括时间性能和空间性能两个方面,存在一下常见的优化策略:
1:输入的文件尽量采用大文件
众多的小文件会导致map数量众多,每个新的map任务都会造成一些性能的损失。所以可以将一些小文件在进行mapreduce操作前进行一些预处理,整合成大文件,或者直接采用ConbinFileInputFormat来作为输入方式,此时hadoop会考虑节点和集群的位置信息,已决定将哪些文件打包到同一个单元之中。
2:合理分配map和reduce任务的数量
通过属性mapred.tasktracker.map.tasks.maximum和mapred.tasktracker.reduce.tasks.maximum分别可以配置单个节点上map任务和reduce任务的最大数量。
3:压缩中间数据,减少I/O
4:在map后先进行combine处理,减少I/O
1:计算机性能
2:I/O操作优化
优化无非包括时间性能和空间性能两个方面,存在一下常见的优化策略:
1:输入的文件尽量采用大文件
众多的小文件会导致map数量众多,每个新的map任务都会造成一些性能的损失。所以可以将一些小文件在进行mapreduce操作前进行一些预处理,整合成大文件,或者直接采用ConbinFileInputFormat来作为输入方式,此时hadoop会考虑节点和集群的位置信息,已决定将哪些文件打包到同一个单元之中。
2:合理分配map和reduce任务的数量
通过属性mapred.tasktracker.map.tasks.maximum和mapred.tasktracker.reduce.tasks.maximum分别可以配置单个节点上map任务和reduce任务的最大数量。
3:压缩中间数据,减少I/O
4:在map后先进行combine处理,减少I/O
相关文章推荐
- Hadoop_2.1.0 MapReduce序列图
- JavaScript mapreduce工作原理简析
- HBase基本原理
- HDFS DatanodeProtocol——sendHeartbeat
- HDFS DatanodeProtocol——register
- Hadoop集群提交作业问题总结
- Hadoop源码分析 HDFS ClientProtocol——addBlock
- Hadoop源码分析HDFS ClientProtocol——create
- Hadoop源码分析FSNamesystem几个重要的成员变量
- Hadoop源码分析HDFS ClientProtocol——getBlockLocations
- Hadoop源码分析HDFS Client向HDFS写入数据的过程解析
- ZooKeeper基本理解
- HDFS源码分析——格式化
- Hadoop RPC整个使用流程——以DataNode向NameNode注册为例 4000
- MapReduce作业提交源码分析
- Hadoop DBOutputFormat的使用
- Hadoop LZO的安装与配置
- 读<王垠:一种新的操作系统设计>
- YARN或将成为Hadoop新发力点
- MapReduce: Simplified Data Processing on Large ...