使用eclipse运行和调试nutch1.4
2012-03-12 11:36
302 查看
起初参照官网http://wiki.apache.org/nutch/RunNutchInEclipse,有些文字对java不熟悉的人来说根本看不明白,在往上搜索到了一篇文章http://www.douban.com/note/193721760/,里边有个需要***的地址:http://zettadata.blogspot.com/2011/12/eclipsenutch.html,参照这个地址基本可以在eclipse下编译通过大部分nutch插件,但要正确运行,还是要经历几个关键问题的解决:
1:在eclipse中运行时会碰到以下问题:
Exception in thread "main" java.io.IOException: Job failed!
at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1252)
at org.apache.nutch.parse.ParseSegment.parse(ParseSegment.java:209)
at org.apache.nutch.crawl.Crawl.run(Crawl.java:138)
at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
at org.apache.nutch.crawl.Crawl.main(Crawl.java:55)
这个可以从hadoop log中看到失败原因是插件没有编译通过,去看插件中错误,无非是某些jar包找不到,添加以下几个jar包到工程中可以解决:
build/plugins/lib-nekohtml/nekohtml-0.9.5.jar
build/plugins/parse-html/tagsoup-1.2.jar
rome.*.jar(从http://mirrors.ibiblio.org/pub/mirrors/maven2/搜索最新包,搜索关键字是rome)
添加这几个包之后,重新再编译一次,红色的错误都消失了,这个时候在eclipse中再运行时候,可以跑到最后了,但还是有异常,原因是以前crawl没有正常结束,留了些垃圾目录在哪儿,看谁报异常删除掉即可。
再跑,一切正常了,调试也没啥问题了。
2:如果和solr结合使用,运行参数请设置为urls -solr http://localhost:8080/solr -depth 3 -topN 50
1:在eclipse中运行时会碰到以下问题:
Exception in thread "main" java.io.IOException: Job failed!
at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1252)
at org.apache.nutch.parse.ParseSegment.parse(ParseSegment.java:209)
at org.apache.nutch.crawl.Crawl.run(Crawl.java:138)
at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
at org.apache.nutch.crawl.Crawl.main(Crawl.java:55)
这个可以从hadoop log中看到失败原因是插件没有编译通过,去看插件中错误,无非是某些jar包找不到,添加以下几个jar包到工程中可以解决:
build/plugins/lib-nekohtml/nekohtml-0.9.5.jar
build/plugins/parse-html/tagsoup-1.2.jar
rome.*.jar(从http://mirrors.ibiblio.org/pub/mirrors/maven2/搜索最新包,搜索关键字是rome)
添加这几个包之后,重新再编译一次,红色的错误都消失了,这个时候在eclipse中再运行时候,可以跑到最后了,但还是有异常,原因是以前crawl没有正常结束,留了些垃圾目录在哪儿,看谁报异常删除掉即可。
再跑,一切正常了,调试也没啥问题了。
2:如果和solr结合使用,运行参数请设置为urls -solr http://localhost:8080/solr -depth 3 -topN 50
相关文章推荐
- 如何使用Eclipse开发以及运行调试WebOS
- Windows 使用Eclipse配置连接hadoop,编译运行MapReduce --本地调试WordCount
- 在Eclipse中调试运行Nutch
- win下使用eclipse运行Nutch1.2
- nutch-1.4在eclipse中运行
- Tigase-02 tigase-server7.1.0使用git 克隆下来,并在eclipse 上运行调试
- 使用Ant编译tomcat,并且在Eclipse中运行单步调试
- Win7上使用Eclipse运行Nutch-Injector: java.io.IOException问题解决
- 使用Eclipse编译运行MapReduce程序
- 本地eclipse连接远程hadoop集群运行wordcount实例,实现远程调试
- eclipse中使用maven插件的时候,运行run as maven install的时候报错
- Linux使用eclipse编译,调试Nginx模块
- eclipse中配置maven 运行使用maven中自带的jetty
- eclipse中使用spring boot 入门开发(包含:与jsp页面和数据库交互,cmd打包运行war包)
- 使用Eclipse调试Java程序的10个技巧
- 怎样在Eclipse中使用debug模式调试程序
- JeeSite 4.0 开发环境部署运行调试(Eclipse) 3ff8
- 使用Eclipse调试Java程序的10个技巧
- 使用Eclipse编译运行MapReduce程序
- 手工从零开始建立ARM交叉编译工具链,并使用Eclipse+J-Link ARM-OB STM32调试S5PV210