运行调试nutch的问题处理及注意事项
2012-11-05 18:33
295 查看
导入nutch项目时其conf文件下的所有配置文件需要加入到classPath中
右键conf――>Build PathàUse as Source Folder
在运行时如发生异常:x point org.apache.nutch.net.URLNormalizer not found.
注:这是配置造成的,是插件目录的配置没有正确,修改conf/nutch-default.xml文件
<property>
<name>plugin.folders</name>
<value>./src/plugin</value><!—修改部分-->
...
在运行时如发生异常:Fetcher: No agents listed in 'http.agent.name' property.
检查conf配置目录中的nutch-default.xml和nutch-site.xml文件中是否存在键:http.agent.name,
或存在键:http.agent.name,但其值为空,一定要定义此键值,值可以任意,自已想名字吧。如:
<property>
<name>http.agent.name</name>
<value>nutch16</value>
</property>
//添加想抓取的URL
1、建立待扫描的文件夹,然后在其中新建一个文件(文件名不限),在该文件中写入想抓取的网站URL,每行一个,如:http://www.163.com/
2、conf/crawl-urlfilter.txt
#accept hosts in MY.DOMAIN.NAME
+^http://([a-z0-9]*\.)*163.com/ ---写入想抓取的网站正则表达式
然后即可在eclipse中进行调试或使用nutch进行爬行
进入nutch目录
$ sh ./bin/nutch crawl urls -dir mydir -depth 2 -threads 4 -topN 50
crawl:通知nutch.jar,执行crawl的main方法。
urls:存放需要爬行的url.txt文件的目录
-dir mydir 爬行后文件保存的位置
-depth 2:爬行次数,或者成为深度,不过还是觉得次数更贴切,建议测试时改为1。
-threads 指定并发的进程 这是设定为 4
-topN 50:一个网站保存的最大页面数。
注意爬网的时候mydir目录不能存在,要不然会出错
右键conf――>Build PathàUse as Source Folder
在运行时如发生异常:x point org.apache.nutch.net.URLNormalizer not found.
注:这是配置造成的,是插件目录的配置没有正确,修改conf/nutch-default.xml文件
<property>
<name>plugin.folders</name>
<value>./src/plugin</value><!—修改部分-->
...
在运行时如发生异常:Fetcher: No agents listed in 'http.agent.name' property.
检查conf配置目录中的nutch-default.xml和nutch-site.xml文件中是否存在键:http.agent.name,
或存在键:http.agent.name,但其值为空,一定要定义此键值,值可以任意,自已想名字吧。如:
<property>
<name>http.agent.name</name>
<value>nutch16</value>
</property>
//添加想抓取的URL
1、建立待扫描的文件夹,然后在其中新建一个文件(文件名不限),在该文件中写入想抓取的网站URL,每行一个,如:http://www.163.com/
2、conf/crawl-urlfilter.txt
#accept hosts in MY.DOMAIN.NAME
+^http://([a-z0-9]*\.)*163.com/ ---写入想抓取的网站正则表达式
然后即可在eclipse中进行调试或使用nutch进行爬行
进入nutch目录
$ sh ./bin/nutch crawl urls -dir mydir -depth 2 -threads 4 -topN 50
crawl:通知nutch.jar,执行crawl的main方法。
urls:存放需要爬行的url.txt文件的目录
-dir mydir 爬行后文件保存的位置
-depth 2:爬行次数,或者成为深度,不过还是觉得次数更贴切,建议测试时改为1。
-threads 指定并发的进程 这是设定为 4
-topN 50:一个网站保存的最大页面数。
注意爬网的时候mydir目录不能存在,要不然会出错
相关文章推荐
- Hadoop/Spark环境运行过程中可能遇到的问题或注意事项
- XCode7 之后免证书真机调试注意事项以及问题总结
- Asp.Net中页面运行时动态载入的UserControl内元素的事件处理的注意事项
- Oracle 11.2 单实例连接ASM时需要注意的事项以及问题处理
- Asp.Net中页面运行时动态载入的UserControl内元素的事件处理的注意事项
- JSP运行时错误处理与应该注意的六个常见问题
- Spring MVC中处理ajax请求的跨域问题与注意事项详解
- EasySYS开发驱动在调试版运行时注意的问题(1)
- Windows上安装AD域控制器注意事项及常见问题处理办法
- 手机软件项目管理8—三方应用问题处理注意事项
- Modem Crash 问题处理及注意事项
- 关于Windows编程中一些注意事项——程序运行时的出错,而调试却没有错
- Asp.Net中页面运行时动态载入的UserControl内元素的事件处理的注意事项
- vs2008能调试运行,iis中浏览打开报错等问题的处理方法。
- LCD调试中的常见问题以及注意事项
- LCD调试中的常见问题以及注意事项
- Node.js的Express运行问题处理
- Window Services的调试和非托管dll的引用及其他一些注意问题
- 母版页A>结构设置----html---css B〉注意母版页中还有路径的问题处理。
- Vista上运行VisualStudio2005,调试asp.net程序的怪问题