在多硬盘情况下的Hadoop配置注意项
2013-12-06 17:12
330 查看
原文地址:http://blog.csdn.net/dajuezhao/article/details/6797015
一、背景
1、最近在做hadoop的性能测试,采用了自带的Terasort的方式,但是在运行的过程中发现如果数据量过大,对硬盘I/O需求不小(通过Ganglia监控发现),因此,打算找找看是否有合适的配置来解决这样一类的问题,所以才有了这篇记录的文档。
2、在做修改之前,当然必须确认slave的多块硬盘没有做任何形式的raid。
二、修改配置
1、hdfs-site.xml中的
[html] view
plaincopy
<property>
<name>dfs.data.dir</name>
<value>/data1,/data2,/data3,/data4,/data5,/data6,/data7</value>
<description>Determines where on the local filesystem an DFS data node
should store its blocks. If this is a comma-delimited
list of directories, then data will be stored in all named
directories, typically on different devices.
Directories that do not exist are ignored.
</description>
</property>
这个配置注意看就明白,每个/data1就是一个硬盘目录,中间采用英文的逗号分隔。其中写的英文说明也比较清楚。
2、mapred-site.xml中的
[html] view
plaincopy
<property>
<name>mapred.local.dir</name>
<value>/data1/mapred/local,/data2/mapred/local,/data3/mapred/local,/data4/mapred/local,/data5/mapred/local,/data6/mapred/local,/data7/mapred/local</value>
<description>The local directory where MapReduce stores intermediate
data files. May be a comma-separated list of
directories on different devices in order to spread disk i/o.
Directories that do not exist are ignored.
</description>
</property>
这个参数的主要中做就是在MR的过程中,将一些需要临时写到本地硬盘的数据分开写到多个盘中,降低各个硬盘的I/O压力,提升速度。之所以发现这个问题也是在MR的过程中通过ganglia发现一个硬盘的I/O压力巨大无比,而其他硬盘没有负载,所以才会发现需要修改这个配置。Ganglia真是个好东西啊!
三、总结
1、至于是不是要做raid,网上很多文章也写过,多数是说实现了软件的备份,我认为不仅如此,在主板支持的情况下,多硬盘多线程读写速度还是很可观的。
2、最后说一个,不做raid可以节约硬件的成本,虽然谈不上多贵,但是当数量大了之后价值就可观了。需要说明一下,我用的都是7200的SATA盘。
一、背景
1、最近在做hadoop的性能测试,采用了自带的Terasort的方式,但是在运行的过程中发现如果数据量过大,对硬盘I/O需求不小(通过Ganglia监控发现),因此,打算找找看是否有合适的配置来解决这样一类的问题,所以才有了这篇记录的文档。
2、在做修改之前,当然必须确认slave的多块硬盘没有做任何形式的raid。
二、修改配置
1、hdfs-site.xml中的
[html] view
plaincopy
<property>
<name>dfs.data.dir</name>
<value>/data1,/data2,/data3,/data4,/data5,/data6,/data7</value>
<description>Determines where on the local filesystem an DFS data node
should store its blocks. If this is a comma-delimited
list of directories, then data will be stored in all named
directories, typically on different devices.
Directories that do not exist are ignored.
</description>
</property>
这个配置注意看就明白,每个/data1就是一个硬盘目录,中间采用英文的逗号分隔。其中写的英文说明也比较清楚。
2、mapred-site.xml中的
[html] view
plaincopy
<property>
<name>mapred.local.dir</name>
<value>/data1/mapred/local,/data2/mapred/local,/data3/mapred/local,/data4/mapred/local,/data5/mapred/local,/data6/mapred/local,/data7/mapred/local</value>
<description>The local directory where MapReduce stores intermediate
data files. May be a comma-separated list of
directories on different devices in order to spread disk i/o.
Directories that do not exist are ignored.
</description>
</property>
这个参数的主要中做就是在MR的过程中,将一些需要临时写到本地硬盘的数据分开写到多个盘中,降低各个硬盘的I/O压力,提升速度。之所以发现这个问题也是在MR的过程中通过ganglia发现一个硬盘的I/O压力巨大无比,而其他硬盘没有负载,所以才会发现需要修改这个配置。Ganglia真是个好东西啊!
三、总结
1、至于是不是要做raid,网上很多文章也写过,多数是说实现了软件的备份,我认为不仅如此,在主板支持的情况下,多硬盘多线程读写速度还是很可观的。
2、最后说一个,不做raid可以节约硬件的成本,虽然谈不上多贵,但是当数量大了之后价值就可观了。需要说明一下,我用的都是7200的SATA盘。
相关文章推荐
- 在多硬盘情况下的Hadoop配置注意项
- 在多硬盘情况下的Hadoop配置注意项
- hadoop多硬盘配置注意点
- Hadoop多硬盘配置时的注意事项
- win7+eclipse配置Hadoop开发环境注意事项
- hadoop集群免密码ssh登录配置注意执行权限
- hadoop2.3配置注意
- hadoop 配置注意
- 配置hadoop要注意的问题
- DS8000的硬盘配置注意事项
- win7下hadoop安装配置注意事项
- Hadoop+Hbase+ZooKeeper 安装配置及需要注意的事项
- hadoop 配置文件注意问题
- Hadoop集群配置过程中需要注意的问题
- 配置hbase时,需注意lib下Hadoop依赖jar是否与当前hadoop的版本一致
- Dreamweaver链接Access数据库IIS配置站点的注意情况
- Hadoop+Hbase+ZooKeeper 安装配置及需要注意的事项
- caffe搭建--caffe- win10 vs2015 编译(支持GPU)--注意在cmake的时候需要根据情况仔细修改配置
- Hadoop+Hbase+ZooKeeper 安装配置及需要注意的事项
- HADOOP HBASE配置注意事项