Heritrix的配置和运行简单Job 推荐
2009-10-13 12:01
309 查看
长假归来,正式进入“全文搜索”产品的开发阶段,虽然是给门户网站使用的全文搜索,但是由于是要做成傻瓜式的产品,所以需要使用爬虫来获取网站的内容,然后再用Lucene来搜索,这Lucene还好说,可是爬虫就不好办了,虽然开源的东西不少,可是一个爬虫程序都没接触过,这可咋办呢?好在手边有本关于搜索引擎的书,书中的爬虫程序使用的是“Heritrix”,干脆,就用书中的这个就得了。
从sourceforge下载最新的版本——heritrix-1.14.3.zip,解压以后放到我电脑的E盘根目录,文件夹重命名为heritrix,这样做是有个好处的,后面你就知道了
。解压好以后,照着书上的内容继续往下做,就要启动它了。好嘛,启动的命令可真够长的,我也不能每次都手动输入啊,算了,先在记事本里写好再说吧。复制粘贴?也够麻烦的,有了,改成bat文件试试。打开cmd进到E:\heritrix下,运行bat文件,哈哈,成功了,能运行了。不错,不错,恭喜一下自己
运行之前,需要修改conf目录下的heritrix.properties文件中的“heritrix.cmdline.admin = ”这行,在“=”后面输入“username:password”,重新启动一次,在浏览器地址栏输入“http://localhost:8080/”回车,在页面中输入用户名和密码,如下图:
点击Login按钮,进入主界面,如下图:
点击“Jobs”,在页面中选择“With defaults”,创建一个新的Job,name和description可以随意填写,具体配置如下图:
然后点击Modules按钮,进入下一级配置菜单,“Crawl Scope”和“URI Frontier”选择好以后要点击“change”按钮,其他的选号以后要点击“Add”按钮,具体配置如下图:
需要注意的是Crawl Scope不要选择“BroadScope”,推荐选择“HostScope”,因为“BroadScope”方式是会对所有网站进行抓取,而不是根据输入的网址进行抓取。设置好Modules以后,点击Settings,进入如下图所示页面
图中标注的地方为需要修改的内容,其他地方不需要修改,默认即可。然后点击“Submit job”保存Job。保存以后,可以在Job页面看到如下信息
这样就建立了一个简单的Job,然后点击Console,回到管理页面,我们可以看到有一个“Start”,如下图
点击以后,这个简单的Job就能工作了,哈哈,大功告成,happy
。可以通过Pause来暂停抓取,也可以通过Terminate来停止抓取。
通过测试,我发现HostScope方式,虽然是根据主机来抓取,但是还是会解析出页面中的其他URL从而继续抓取,这也就造成了抓取的内容不止是输入的网址,也许还会有其他的网址的内容,等我测试过所有的方式以后,再和大家分享。
附件是我写的bat文件,使用1.14.3版本的朋友,修改相应的路径就可以运行了
附件:http://down.51cto.com/data/2354291
从sourceforge下载最新的版本——heritrix-1.14.3.zip,解压以后放到我电脑的E盘根目录,文件夹重命名为heritrix,这样做是有个好处的,后面你就知道了
。解压好以后,照着书上的内容继续往下做,就要启动它了。好嘛,启动的命令可真够长的,我也不能每次都手动输入啊,算了,先在记事本里写好再说吧。复制粘贴?也够麻烦的,有了,改成bat文件试试。打开cmd进到E:\heritrix下,运行bat文件,哈哈,成功了,能运行了。不错,不错,恭喜一下自己
运行之前,需要修改conf目录下的heritrix.properties文件中的“heritrix.cmdline.admin = ”这行,在“=”后面输入“username:password”,重新启动一次,在浏览器地址栏输入“http://localhost:8080/”回车,在页面中输入用户名和密码,如下图:
点击Login按钮,进入主界面,如下图:
点击“Jobs”,在页面中选择“With defaults”,创建一个新的Job,name和description可以随意填写,具体配置如下图:
然后点击Modules按钮,进入下一级配置菜单,“Crawl Scope”和“URI Frontier”选择好以后要点击“change”按钮,其他的选号以后要点击“Add”按钮,具体配置如下图:
需要注意的是Crawl Scope不要选择“BroadScope”,推荐选择“HostScope”,因为“BroadScope”方式是会对所有网站进行抓取,而不是根据输入的网址进行抓取。设置好Modules以后,点击Settings,进入如下图所示页面
图中标注的地方为需要修改的内容,其他地方不需要修改,默认即可。然后点击“Submit job”保存Job。保存以后,可以在Job页面看到如下信息
这样就建立了一个简单的Job,然后点击Console,回到管理页面,我们可以看到有一个“Start”,如下图
点击以后,这个简单的Job就能工作了,哈哈,大功告成,happy
。可以通过Pause来暂停抓取,也可以通过Terminate来停止抓取。
通过测试,我发现HostScope方式,虽然是根据主机来抓取,但是还是会解析出页面中的其他URL从而继续抓取,这也就造成了抓取的内容不止是输入的网址,也许还会有其他的网址的内容,等我测试过所有的方式以后,再和大家分享。
附件是我写的bat文件,使用1.14.3版本的朋友,修改相应的路径就可以运行了
附件:http://down.51cto.com/data/2354291
相关文章推荐
- Heritrix的配置和运行简单Job
- 配置和简单运行Heritrix3.2.0(环境为win10 64)
- java 之前的一些配置及简单运行
- heritrix 下载、安装、配置、以及简单开发
- 在IIS中配置PHP运行环境简单步骤
- Windows环境下配置+运行red5源码+AS3连接red5简单示例(转)
- Struts 2简单配置分析,让Struts 2运行起来!
- Mybatis分页插件PageHelper的配置和简单使用方法(推荐)
- Sublime Text 2 C++编译运行简单配置 级常用快捷键
- 如此豪华配置的系统,运行为何还是缓慢! 推荐
- java 之前的一些配置及简单运行
- SAMBA最简单的配置方法 推荐
- eclipse中配置j2me,简单运行j2me程序
- heritrix3 后台运行job
- Heritrix一个简单的Job
- Sublime Text 2 C++编译运行简单配置
- Mule学习(1)——安装,配置,以及简单例子的运行
- maven+spring简单的job任务配置-从远程服务器下载文件
- 在IIS 7中配置PHP运行环境简单步骤[图文教程]
- Windows环境下配置+运行red5源码+AS3连接red5简单示例(转)