您的位置:首页 > 其它

Nutch 安装使用笔记

2006-02-21 19:03 260 查看
这几天有朋友让我一起看一些关于搜索引擎的技术,说实话我的专业还是信息搜集那,可惜在学校老师教的都是一些古老的信息整理方法,早就已经过时,不过我对信息搜集整理还是很感兴趣的。
说正题吧,介绍一下这次需要试用的搜索应用:Nutch

在网上了解到一些关于搜索引擎的知识,好像现在比较热门的就是Lucene,Nutch了,而且Nutch的主要开发人员Doug Cutting还是开发Lucene的。而且别的几种搜索技术还都不是全面的搜索应用。我就选择了Nutch来作测试了。而且全都是开发好的只要用就可以了。哈哈!

说正题吧,先给出我的参考文章: http://www.dbanotes.net/web/nutch.html Nutch 初体验
http://dev.4kiki.net/content/article/112.html Nutch 于 winxp

安装步骤:

1,安装JDK,我看到网上nutch支持的是jdk1.4,不过我安装得是,jdk1.5,为了安装tomcat5.5
我的安装路径:C:/Sun/java
2,安装cygwin,方法网上很多,我推荐安装本地安装版
我的安装路径: D:/cygwin/
3,安装tomcat,nutch的说明支持tomcat 4.3,我安装的是tomcat5.5
我的安装路径:D:/Program Files/Tomcat 5.5
4,安装nutch-0.7.1.zip
将下载的压缩包解压缩到:D:/cygwin/home/nutch

配置步骤:

1,配置cygwin中的环境
D:/cygwin/etc/profile

PATH="/usr/local/bin:/usr/bin:/bin:$PATH:/cygdrive/c/Sun/java/jdk1.5.0_06"
export NUTCH_JAVA_HOME=/cygdrive/c/Sun/java/jdk1.5.0_06
export JAVA_HOME=/cygdrive/c/Sun/java/jdk1.5.0_06

2,配置 nutch
D:/cygwin/home/nutch/conf/crawl-urlfilter.txt

# accept hosts in MY.DOMAIN.NAME
+^http://([a-z0-9]*/.)*sina.com.cn/

将上面的sian.com.cn改为你需要搜索的域名

在D:/cygwin/home/nutch中建立目录URLS,目录中建立文件URLS-20060212
文件内容:http://www.sina.com.cn

Nutch 的爬虫有两种方式

爬行企业内部网(Intranet crawling)。针对少数网站进行。用 crawl 命令。

爬行整个互联网。 使用低层的 inject, generate, fetch 和 updatedb 命令。具有更强的可控制性。

现在可以开始抓网页了
用cygwin进入/home/nutch目录,
./bin/nutch crawl ./URLS/URLS-20060212 -dir sina.com.cn -depth 2 -threads 4
depth 参数指爬行的深度,这里处于测试的目的,选择深度为 2 ;
threads 参数指定并发的进程 这是设定为 4 ;

3,配置tomcat

将D:/Program Files/Tomcat 5.5/webapps/ROOT目录下文件全部删除
将D:/cygwin/home/nutch中nutch-0.7.1.war解压缩到ROOT目录中
(可以直接使用winrar解压缩,或者用命令jar xvf nutch-0.7.1.war)

配置文件:D:/Program Files/Tomcat 5.5/webapps/ROOT/WEB-INF/classes/nutch-site.xml
<nutch-conf>
<property>
<name>searcher.dir</name>
<value>D:/cygwin/home/nutch/sina.com.cn</value>
</property>
</nutch-conf>

重启tomcat服务器

IE中输入http://localhost:8080

你就可以看到自己的搜索引擎了,哈哈!

不过很可惜的是我的中文搜索不可以,不知道该怎么配置。

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: