您的位置：首页 > 运维架构

hadoop 需要注意的地方

2013-04-22 20:14 204 查看

1、对于一个新手来说，简单地进行hadoop安装和wordcount demo程序的验证都是件十分不易的事情。安装完之后把环境变量写进/etc/profile,并source一下。

2、另外需要注意的是：

通过hadoop dfs -copyFromLocal /tmp/test.txt firstTest 是上传测试文件到 firstTest里。 firstTest 为一个文件

若想上传多个文件到一个目录下，则需要创建一个目录：hadoop dfs -mkdir thirdTest

然后可以上传多个文件到这个目录底下，然后将多个文件做为输入，来统计单词个数

假如有三个文件夹在/tmp/目录下，如下面所示为test1.txt、test2.txt、test.txt

root@cloud1:/tmp# ls

hadoop-root Jetty_0_0_0_0_50060_task____.2vcltf

hadoop-root-datanode.pid Jetty_0_0_0_0_50070_hdfs____w2cu08

hadoop-root-jobtracker.pid Jetty_0_0_0_0_50075_datanode____hwtdwq

hadoop-root-namenode.pid Jetty_0_0_0_0_50090_secondary____y6aanv

hadoop-root-secondarynamenode.pid test1.txt

hadoop-root-tasktracker.pid test2.txt

hsperfdata_root test.txt

Jetty_0_0_0_0_50030_job____yn7qmk

上传三个测试文件到thirdTest目录下

hadoop dfs -copyFromLocal /tmp/test*.txt thirdTest

除此之外，需要注意，如果你上次使用过firstTest文件。这次又把测试文件的内容上传到这个文件夹时就会出现提示，文件夹已经存在，这时就需要重新使用别的文件名，比如secondTest等

3、执行wordcount

hadoop jar hadoop-examples-1.0.4.jar wordcount thirdTest result

注意：在执行的时候可能会提醒你result 这个文件已经存在，这说明上一次你在输出结果的时候已经使用到了result 这个文件，所以要么删掉result这个文件夹。，要么输出结果到其他文件夹里。比如说 resultn等。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： hadoop

相关文章推荐

新的分享

章节导航