您的位置:首页 > 运维架构

hadoop 需要注意的地方

2013-04-22 20:14 204 查看
1、 对于一个新手来说,简单地进行hadoop安装和wordcount demo程序的验证都是件十分不易的事情。安装完之后把环境变量写进/etc/profile,并source一下。

2、另外需要注意的是:

通过hadoop dfs -copyFromLocal /tmp/test.txt firstTest 是上传测试文件到 firstTest里。 firstTest 为一个文件

若想上传多个文件到一个目录下,则需要创建一个目录:hadoop dfs -mkdir thirdTest

然后可以上传多个文件到这个目录底下,然后将多个文件做为输入,来统计单词个数

假如有三个文件夹在/tmp/目录下,如下面所示为test1.txt、test2.txt、test.txt

root@cloud1:/tmp# ls

hadoop-root Jetty_0_0_0_0_50060_task____.2vcltf

hadoop-root-datanode.pid Jetty_0_0_0_0_50070_hdfs____w2cu08

hadoop-root-jobtracker.pid Jetty_0_0_0_0_50075_datanode____hwtdwq

hadoop-root-namenode.pid Jetty_0_0_0_0_50090_secondary____y6aanv

hadoop-root-secondarynamenode.pid test1.txt

hadoop-root-tasktracker.pid test2.txt

hsperfdata_root test.txt

Jetty_0_0_0_0_50030_job____yn7qmk

上传三个测试文件到thirdTest目录下

hadoop dfs -copyFromLocal /tmp/test*.txt thirdTest

除此之外,需要注意,如果你上次使用过firstTest文件。这次又把测试文件的内容上传到这个文件夹时就会出现提示,文件夹已经存在,这时就需要重新使用别的文件名,比如secondTest等

3、执行wordcount

hadoop jar hadoop-examples-1.0.4.jar wordcount thirdTest result

注意:在执行的时候可能会提醒你result 这个文件已经存在,这说明上一次你在输出结果的时候已经使用到了result 这个文件,所以要么删掉result这个文件夹。,要么输出结果到其他文件夹里。比如说 resultn等。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  hadoop