就是准备!
2010-06-24 12:03
183 查看
通常来说nutch应该部署在多台机器上,做并行抓取,那么配置nutch在单机windows下有什么意义呢?就是方便debug。
下面分步骤详述。
1.安装JDK 6,eclipse3.2以上版本
2.为eclise安装IBM mapreduce tools插件
http://www.alphaworks.ibm.com/tech/mapreducetools
3.安装cygwin,并设置环境变量
4.下载nutch源代码,我使用的是最新的1.0版本
5.在eclipse中创建MapReduce Project工程。将nutch下的src/java下的所有代码复制到工程的src目录下,a并将其依赖的jar导入工程路径。
6.将nutch/conf 下的配置文件复制到classloder可以找到的路径,我是复制在bin下
7.修改org.apache.nutch.crawl.Crawl,在main()里加入一句
或者在nutch-site.xml加入
8.运行org.apache.nutch.crawl.Crawl类,命令行参数可以如下:
如果运行成功的话,你就可以使用luke来查看索引文件了。
下面分步骤详述。
1.安装JDK 6,eclipse3.2以上版本
2.为eclise安装IBM mapreduce tools插件
http://www.alphaworks.ibm.com/tech/mapreducetools
3.安装cygwin,并设置环境变量
4.下载nutch源代码,我使用的是最新的1.0版本
5.在eclipse中创建MapReduce Project工程。将nutch下的src/java下的所有代码复制到工程的src目录下,a并将其依赖的jar导入工程路径。
6.将nutch/conf 下的配置文件复制到classloder可以找到的路径,我是复制在bin下
7.修改org.apache.nutch.crawl.Crawl,在main()里加入一句
conf.set("hadoop.job.ugi", "你的帐号名,你的系统密码");
或者在nutch-site.xml加入
<property> <name>hadoop.job.ugi</name> <value>你的帐号名,你的系统密码</value> <description></description> </property>
8.运行org.apache.nutch.crawl.Crawl类,命令行参数可以如下:
D:\test-nutch\urls -dir D:\test-nutch -depth 3 -topN 100 -threads 5,head溢出的话,请调整内存参数
如果运行成功的话,你就可以使用luke来查看索引文件了。
相关文章推荐
- 要成功,就马上准备有所付出吧!这就是每天你应该养成的习惯。
- 2008年8月16号,晴。实验室放假的第九天。我和太太准备去看一看三哥,一方面三哥经常来看我的儿子,另外就是想让三哥帮忙订票。
- 在找到真爱之前,最重要的准备就是…
- csdn blog就是要好点,准备搬家过来了。。
- 身为ACMer就要有ACMer的自知,慢慢准备吧,那银杯就是你的了
- 操作系统一启动==就装入编译器==无操作系统的命令准备==再从以2加的BOOT。img后启动==形成的就是自我完成的操作系统==否则还是DOS和LIUNX.
- 要成功——就马上准备有所付出吧——这就是每天你应该养成的习惯
- 生活就是准备:决胜思维的7条法则
- 准备写博客了,就是记录,交流,共同进步;
- 要成功,就马上准备有所付出吧!这就是每天你应该养成的习惯。 你的成功在于你每天养成的习惯
- 成功只有一条路---那就是准备!
- 作文的准备
- 应用程序框架实战十:开发环境准备与学习资料清单
- java开发前的准备工作
- 如何为Exchange 2007准备活动目录(二)
- 算法就是这么一回事(排序)(第三部分)
- vue开发环境准备-安装vue命令行工具
- 读书笔记(十二)核心测试过程:计划,准备和完善
- PostgreSQL数据库内核分析 笔记(这本书没有怎么很好的看,主要就是一些数据结构、概念和流程的文字介绍)