Heritrix1.14.3 在Eclipse 配置总结
2009-09-14 10:13
363 查看
转自 http://hi.baidu.com/zpz2009/blog/item/080d3665c1cbd5f8f636540b.html
如果出现selection can not contains a main type
需要修改项目的构建路径。
默认的是Heritrix/src
把它删掉,改成是Heritrix就可以了
我在学习<<开发自己的搜索引擎——Lucene 2.0+Heritrix>>一书时对Heritrix的配置感到很迷惑,现在Heritrix已经出到了第Heritrix1.14.3版本了,看到书上的配置觉得很复杂,于在网上找了一些资料,发现众说纷纷,但是还好,每个人的做法都有一定的道理,最主要的说当用别人说的方法不对,能够找出解决方法,我在网上参考了一种方法,但是按照他的做法做下来,却有错误,还好,我及时的改正过来了,实现起来很方便的,只要几分钟的时间就可以配置好了.以下是我总结后的方法,以供大家参考.
首先到Heritrix的官方网下载Heritrix1.14.3
1、下载heritrix-1.14.1-src.zip和heritrix-1.14.1.zip两个压缩包,并解压,以后分别简称SRC包和ZIP包;
2、在Eclipse下新建Java项目,取名Heritrix;(如我打开Eclipse的工作区在D:/eclipse/search下,当我建了项目Heritrix后,我就可以找到D:/eclipse/search/Heritrix文件夹.其中包含两个工程属性文件.classpath和.project。有的人建了后还有两个文件目录bin和src,本人的没有,如果有的话删除掉两个文件目录bin和src。)
3、复制SRC包下面src/java文件夹下org、com、st三个文件夹到项目根目录(即D:/eclipse/search/Heritrix);
4、复制SRC包下src下resources文件夹到项目根目录;打开conf将其下所有文件复制到项目根目录。
5、复制SRC包下lib文件夹到项目根目录;
6、复制ZIP包下webapps文件夹到项目根目录;
做好了以上,在Eclipse中Heritrix项目右击刷新一下,就可以看到刚才所复制的包了。
7、在Eclipse中修改项目conf下heritrix.properties文件(
修改内容至少两个两个地方:
@VERSION@ 改为 1.14.3
heritrix.cmdline.admin = 改为 heritrix.cmdline.admin = admin:xxm (这里是用户名与密码,可任读者设定.)
heritrix.cmdline.port = 改为 heritrix.cmdline.port = 8080 (注默认是8080的如果你已占用了这个端口号的话,要设另一个才行,因为我之前安装了tomcat,所以这里改为8090)
配置Heritrix.properties,主要配置四项:如下红色部分所示
##############################################################################
# Properties with prefixes 'heritrix.', 'org.archive.', or 'system.' prefix
# get copied into System.properties on startup so available via
# System.getProperties. (For 'system.' properties, that prefix is stripped.
# (See Heritrix.loadProperties()).
# Version is filled in by the maven.xml pregoal. It copies here the project
# currentVersion property.
heritrix.version = 1.14.1
# Location of the heritrix jobs directory.
heritrix.jobsdir = jobs
# Default commandline startup values.
# Below values are used if unspecified on the command line.
heritrix.cmdline.admin = admin:admin
heritrix.cmdline.port = 8088
heritrix.cmdline.run = false
heritrix.cmdline.nowui = false
heritrix.cmdline.order =
heritrix.cmdline.jmxserver = false
heritrix.cmdline.jmxserver.port = 8081
##############################################################################
改好了以上的,别忘了保存一下哦.
8、在项目Heritrix上右键选择构建路径->配置构建路径->库选项卡->添加Jar,将lib目录下的所有.jar文件选中,点击完成!
9、在项目/src/org.archive.crawler包下Heritrix.java上点击右键选运行方式->运行为应用程序.如果一切正常,运行后的控制台显示了:可能各都不一样,大约意思是这样了.
12:18:12.703 EVENT Starting Jetty/4.2.23
12:18:12.937 EVENT Started WebApplicationContext[/,Heritrix Console]
12:18:13.062 EVENT Started SocketListener on 127.0.0.1:8090
12:18:13.062 EVENT Started org.mortbay.jetty.Server@179c285
Heritrix version: 1.14.3
这时你可以打开浏览器,输入http://localhost:8090或http://localhost:8080
![](http://hiphotos.baidu.com/zpz2009/pic/item/a61b2ffadaa875064e4aeaa1.jpg)
然后输入你的刚才设的用户名和密码就可以登录Heritrix
![](http://hiphotos.baidu.com/zpz2009/pic/item/f209a400fe80a02a7aec2ca2.jpg)
总结:本人按别人的方法做时,发现了错在了源类包的路径不对.即在Eclipse中类的源代码中发现包的位置显示了错,于是按照类中源代码的的的包路径重新调整了各包的位置,于是就对了,读者如果出现这样问题可以自己查看一下做合当的调整.
同时,大约是只要把这几个必须有的包都复制到了,就可以了。
注:如由于大家出现了一些问题.下面我给出了结构图,这是配置完后能运行的工程,各位如果不一样,可以自行调整.下面是两个图,由于太多了,中间的包就略了一些,大家查看.因为目前有点忙,没有能回答大家的问题,请谅.
![](http://hiphotos.baidu.com/zpz2009/pic/item/57efd6fa1a962741024f56e7.jpg)
如果出现selection can not contains a main type
需要修改项目的构建路径。
默认的是Heritrix/src
把它删掉,改成是Heritrix就可以了
我在学习<<开发自己的搜索引擎——Lucene 2.0+Heritrix>>一书时对Heritrix的配置感到很迷惑,现在Heritrix已经出到了第Heritrix1.14.3版本了,看到书上的配置觉得很复杂,于在网上找了一些资料,发现众说纷纷,但是还好,每个人的做法都有一定的道理,最主要的说当用别人说的方法不对,能够找出解决方法,我在网上参考了一种方法,但是按照他的做法做下来,却有错误,还好,我及时的改正过来了,实现起来很方便的,只要几分钟的时间就可以配置好了.以下是我总结后的方法,以供大家参考.
首先到Heritrix的官方网下载Heritrix1.14.3
1、下载heritrix-1.14.1-src.zip和heritrix-1.14.1.zip两个压缩包,并解压,以后分别简称SRC包和ZIP包;
2、在Eclipse下新建Java项目,取名Heritrix;(如我打开Eclipse的工作区在D:/eclipse/search下,当我建了项目Heritrix后,我就可以找到D:/eclipse/search/Heritrix文件夹.其中包含两个工程属性文件.classpath和.project。有的人建了后还有两个文件目录bin和src,本人的没有,如果有的话删除掉两个文件目录bin和src。)
3、复制SRC包下面src/java文件夹下org、com、st三个文件夹到项目根目录(即D:/eclipse/search/Heritrix);
4、复制SRC包下src下resources文件夹到项目根目录;打开conf将其下所有文件复制到项目根目录。
5、复制SRC包下lib文件夹到项目根目录;
6、复制ZIP包下webapps文件夹到项目根目录;
做好了以上,在Eclipse中Heritrix项目右击刷新一下,就可以看到刚才所复制的包了。
7、在Eclipse中修改项目conf下heritrix.properties文件(
修改内容至少两个两个地方:
@VERSION@ 改为 1.14.3
heritrix.cmdline.admin = 改为 heritrix.cmdline.admin = admin:xxm (这里是用户名与密码,可任读者设定.)
heritrix.cmdline.port = 改为 heritrix.cmdline.port = 8080 (注默认是8080的如果你已占用了这个端口号的话,要设另一个才行,因为我之前安装了tomcat,所以这里改为8090)
配置Heritrix.properties,主要配置四项:如下红色部分所示
##############################################################################
# Properties with prefixes 'heritrix.', 'org.archive.', or 'system.' prefix
# get copied into System.properties on startup so available via
# System.getProperties. (For 'system.' properties, that prefix is stripped.
# (See Heritrix.loadProperties()).
# Version is filled in by the maven.xml pregoal. It copies here the project
# currentVersion property.
heritrix.version = 1.14.1
# Location of the heritrix jobs directory.
heritrix.jobsdir = jobs
# Default commandline startup values.
# Below values are used if unspecified on the command line.
heritrix.cmdline.admin = admin:admin
heritrix.cmdline.port = 8088
heritrix.cmdline.run = false
heritrix.cmdline.nowui = false
heritrix.cmdline.order =
heritrix.cmdline.jmxserver = false
heritrix.cmdline.jmxserver.port = 8081
##############################################################################
改好了以上的,别忘了保存一下哦.
8、在项目Heritrix上右键选择构建路径->配置构建路径->库选项卡->添加Jar,将lib目录下的所有.jar文件选中,点击完成!
9、在项目/src/org.archive.crawler包下Heritrix.java上点击右键选运行方式->运行为应用程序.如果一切正常,运行后的控制台显示了:可能各都不一样,大约意思是这样了.
12:18:12.703 EVENT Starting Jetty/4.2.23
12:18:12.937 EVENT Started WebApplicationContext[/,Heritrix Console]
12:18:13.062 EVENT Started SocketListener on 127.0.0.1:8090
12:18:13.062 EVENT Started org.mortbay.jetty.Server@179c285
Heritrix version: 1.14.3
这时你可以打开浏览器,输入http://localhost:8090或http://localhost:8080
![](http://hiphotos.baidu.com/zpz2009/pic/item/a61b2ffadaa875064e4aeaa1.jpg)
然后输入你的刚才设的用户名和密码就可以登录Heritrix
![](http://hiphotos.baidu.com/zpz2009/pic/item/f209a400fe80a02a7aec2ca2.jpg)
总结:本人按别人的方法做时,发现了错在了源类包的路径不对.即在Eclipse中类的源代码中发现包的位置显示了错,于是按照类中源代码的的的包路径重新调整了各包的位置,于是就对了,读者如果出现这样问题可以自己查看一下做合当的调整.
同时,大约是只要把这几个必须有的包都复制到了,就可以了。
注:如由于大家出现了一些问题.下面我给出了结构图,这是配置完后能运行的工程,各位如果不一样,可以自行调整.下面是两个图,由于太多了,中间的包就略了一些,大家查看.因为目前有点忙,没有能回答大家的问题,请谅.
![](http://hiphotos.baidu.com/zpz2009/pic/item/57efd6fa1a962741024f56e7.jpg)
![](http://hiphotos.baidu.com/zpz2009/pic/item/45e0a7f271f96575342acce2.jpg)
相关文章推荐
- Heritrix1.14.3 在Eclipse 配置总结
- eclipse中配置heritrix的图文过程----heritrix-1.14.3
- eclipse中配置heritrix的图文过程----heritrix-1.14.3
- Eclipse下配置Heritrix_1.14.3
- eclipse中配置heritrix1.14.3
- eclipse中配置heritrix1.14.3
- 在Eclipse中的配置Heritrix 1.14.3
- 在ECLIPSE下配置Heritrix1.14.3(绝对可行,成功配置了)
- (转)Heritrix1.14.1在Eclipse下的配置总结
- Eclipse 配置问题总结
- Heritrix-1.12.1在Eclipse中的配置
- hadoop环境配置在eclipse上配置的总结
- Eclipse下配置heritrix
- Eclipse 安装配置总结
- myeclips/eclipse配置总结(根据网络整理)
- heritrix1.12.1不用eclipse的配置
- Eclipse+Tomcat+Lomboz的配置总结
- eclipse配置及常用快捷键总结
- Heritrix-1.12.1在Eclipse中的配置
- eclipse配置总结