在windows中如何安装Nutch
2006-07-24 14:33
627 查看
本来有机会接一个搜索引擎项目的,但最终因价格问题双方谈崩。为此,我感到深深的遗憾,失去了一个极好的实践机会。但我不想因此放弃对搜索引擎的学习和实践,在网上听到很多人推荐Nutch。所以我打算学习一下Nutch,要学习Nutch,还是先从安装和使用Nutch开始吧。以下是我在xp sp2环境下安装Nutch的过程记录。
安装Nutch需要的环境
jdk1.4.x or jdk1.5
tomcat4.x以上
cygwin
软件下载地址:
安装步骤:(具体的安装目录可任意)
1、安装JDK,我看到网上nutch支持的是jdk1.4,不过我安装得是,jdk1.5,为了安装tomcat5.5
我的安装路径:F:/project/java/jdk5
2、安装cygwin,方法网上很多,我推荐安装本地安装版
我的安装路径: E:/Program Files/cygwin/
3、安装tomcat,nutch的说明支持tomcat 4.3,我安装的是tomcat5.5
我的安装路径:F:/project/Tomcat 5.5
4、安装nutch-0.7.1.zip
将下载的压缩包解压缩到:F:/project/nutch-0.7.2/
配置步骤:
1、配置cygwin中的环境
E:/Program Files/cygwin/etc/profile
PATH="/usr/local/bin:/usr/bin:/bin:$PATH:/cygdrive/f/project/java/jdk5"
export NUTCH_JAVA_HOME=/cygdrive/f/project/java/jdk5
export JAVA_HOME=/cygdrive/f/project/java/jdk5
2、配置 nutch
1) 配置抓取过滤器,确定要抓取的网站地址
打开 F:/project/nutch-0.7.2/conf/crawl-urlfilter.txt
# accept hosts in MY.DOMAIN.NAME
+^http://([a-z0-9]*/.)*gucas.ac.cn/
将上面的gucas.ac.cn改为你需要搜索的域名
2) 配置抓取的起始网站地址
在F:/project/nutch-0.7.2中建立目录URLS,目录中建立文件URLS-20060723
文件内容:http://www.gucas.ac.cn
3) 个性化配置
Nutch中的所有配置文件都放置在总目录下的conf子文件夹中,最基本的配置文件是conf/nutch-default.xml。这个文件中定义了Nutch的所有必要设置以及一些默认值,它是不可以被修改的。如果你想进行个性化设置,你需要在conf/nutch-site.xml进行设置,它会对默认设置进行屏蔽。
Nutch考虑了其可扩展性,你可以自定义插件plugins来定制自己的服务,一些plugins存放于plugins子文件夹。Nutch的网页解析与索引功能是通过插件形式进行实现的,例如,对HTML文件的解析与索引是通过HTML document parsing plugin,
3、运行crawl命令抓取网站内容
Nutch 的爬虫有两种方式
爬行企业内部网(Intranet crawling:针对少数网站进行,用 crawl 命令。
爬行整个互联网:使用低层的 inject, generate, fetch 和 updatedb 命令,具有更强的可控制性。
1) 抓取企业内部网(Intranet crawling)
用cygwin进入F:/project/nutch-0.7.2目录,
./bin/nutch crawl ./URLS/URLS-20060723 -dir ./crawled/gucas.ac.cn -depth 2 -threads 4 >& crawl.log
稍等几分钟,程序抓取过程结束,在你的crawled子目录下,将会看到抓取的内容。
下面解释下该命令:
crawl 命令有几个参数,它们是:
-dir 指定抓取后内容及索引的存放目录
-depth 指定网站抓取的层数
-delay 指定连接目标网站延迟时间
-threads 指定程序运行的线程数,以提高抓取速度。
在命令 ./bin/nutch crawl ./URLS/URLS-20060723 -dir ./crawled/gucas.ac.cn -depth 2 -threads 4 >& crawl.log中./URLS/URLS-20060723 是开头建立好的,内容是目录网址,>&crawl.log是指定记录文件,在抓取过程中的错误及其它内容都会记在此文件中。bin/nutch crawl部分是运行nutch安装目录下的bin子目录下的nutch脚本。
4、配置tomcat
将F:/project/Tomcat 5.5/webapps/ROOT目录下文件全部删除
将F:/project/nutch-0.7.2/中nutch-0.7.2.war解压缩到ROOT目录中
(可以直接使用winrar解压缩,或者用命令jar xvf nutch-0.7.1.war)
配置文件:F:/project/Tomcat 5.5/webapps/ROOT/WEB-INF/classes/nutch-site.xml
<nutch-conf>
<property>
<name>searcher.dir</name>
<value>F:/project/nutch-0.7.2/crawled/gucas.ac.cn</value>
</property>
</nutch-conf>
在这里value标签就是指定你搜索的目录,这个目录,也就是开头你抓取后存放抓取内容及索引的目录。<value>F:/project/nutch-0.7.2/crawled/gucas.ac.cn</value>部分,你可以自由修改。
接下来修改tomcat/conf下的server.xml文件,将其中的Connector部分改成如下形式即可:
<Connector port="8080" maxThreads="150" minSpareThreads="25" maxSpareThreads="75"
enableLookups="false" redirectPort="8443" acceptCount="100"
connectionTimeout="20000" disableUploadTimeout="true"
URIEncoding="UTF-8" useBodyEncodingForURI="true" />
这里添加了URIEncoding="UTF-8" useBodyEncodingForURI="true"语句,目的是为了解决汉字编码问题,以免在进行中文搜索时,出现乱码。
重启tomcat服务器,IE中输入http://localhost:8080
参考文章:
一只感冒的老猫 http://blog.csdn.net/ganmao/archive/2006/02/21/604756.aspx
架设自己的搜索引擎,Nutch安装手记之二
http://www.hujys.net/blog/hzjs/ajzhn/archives/2006/238.html
安装Nutch需要的环境
jdk1.4.x or jdk1.5
tomcat4.x以上
cygwin
软件下载地址:
j2SE5.0 http://java.sun.com/javase/downloads/index.html
Tomcat5.5 http://tomcat.apache.org/download-55.cgi
Cygwin http://www.cygwin.com/
Nutch-0.7.2 http://lucene.apache.org/nutch/
安装步骤:(具体的安装目录可任意)
1、安装JDK,我看到网上nutch支持的是jdk1.4,不过我安装得是,jdk1.5,为了安装tomcat5.5
我的安装路径:F:/project/java/jdk5
2、安装cygwin,方法网上很多,我推荐安装本地安装版
我的安装路径: E:/Program Files/cygwin/
3、安装tomcat,nutch的说明支持tomcat 4.3,我安装的是tomcat5.5
我的安装路径:F:/project/Tomcat 5.5
4、安装nutch-0.7.1.zip
将下载的压缩包解压缩到:F:/project/nutch-0.7.2/
配置步骤:
1、配置cygwin中的环境
E:/Program Files/cygwin/etc/profile
PATH="/usr/local/bin:/usr/bin:/bin:$PATH:/cygdrive/f/project/java/jdk5"
export NUTCH_JAVA_HOME=/cygdrive/f/project/java/jdk5
export JAVA_HOME=/cygdrive/f/project/java/jdk5
2、配置 nutch
1) 配置抓取过滤器,确定要抓取的网站地址
打开 F:/project/nutch-0.7.2/conf/crawl-urlfilter.txt
# accept hosts in MY.DOMAIN.NAME
+^http://([a-z0-9]*/.)*gucas.ac.cn/
将上面的gucas.ac.cn改为你需要搜索的域名
2) 配置抓取的起始网站地址
在F:/project/nutch-0.7.2中建立目录URLS,目录中建立文件URLS-20060723
文件内容:http://www.gucas.ac.cn
3) 个性化配置
Nutch中的所有配置文件都放置在总目录下的conf子文件夹中,最基本的配置文件是conf/nutch-default.xml。这个文件中定义了Nutch的所有必要设置以及一些默认值,它是不可以被修改的。如果你想进行个性化设置,你需要在conf/nutch-site.xml进行设置,它会对默认设置进行屏蔽。
Nutch考虑了其可扩展性,你可以自定义插件plugins来定制自己的服务,一些plugins存放于plugins子文件夹。Nutch的网页解析与索引功能是通过插件形式进行实现的,例如,对HTML文件的解析与索引是通过HTML document parsing plugin,
parse-html
实现的。所以你完全可以自定义各种解析插件然后对配置文件进行修改,然后你就可以抓取并索引各种类型的文件了。
3、运行crawl命令抓取网站内容
Nutch 的爬虫有两种方式
爬行企业内部网(Intranet crawling:针对少数网站进行,用 crawl 命令。
爬行整个互联网:使用低层的 inject, generate, fetch 和 updatedb 命令,具有更强的可控制性。
1) 抓取企业内部网(Intranet crawling)
用cygwin进入F:/project/nutch-0.7.2目录,
./bin/nutch crawl ./URLS/URLS-20060723 -dir ./crawled/gucas.ac.cn -depth 2 -threads 4 >& crawl.log
稍等几分钟,程序抓取过程结束,在你的crawled子目录下,将会看到抓取的内容。
下面解释下该命令:
crawl 命令有几个参数,它们是:
-dir 指定抓取后内容及索引的存放目录
-depth 指定网站抓取的层数
-delay 指定连接目标网站延迟时间
-threads 指定程序运行的线程数,以提高抓取速度。
在命令 ./bin/nutch crawl ./URLS/URLS-20060723 -dir ./crawled/gucas.ac.cn -depth 2 -threads 4 >& crawl.log中./URLS/URLS-20060723 是开头建立好的,内容是目录网址,>&crawl.log是指定记录文件,在抓取过程中的错误及其它内容都会记在此文件中。bin/nutch crawl部分是运行nutch安装目录下的bin子目录下的nutch脚本。
4、配置tomcat
将F:/project/Tomcat 5.5/webapps/ROOT目录下文件全部删除
将F:/project/nutch-0.7.2/中nutch-0.7.2.war解压缩到ROOT目录中
(可以直接使用winrar解压缩,或者用命令jar xvf nutch-0.7.1.war)
配置文件:F:/project/Tomcat 5.5/webapps/ROOT/WEB-INF/classes/nutch-site.xml
<nutch-conf>
<property>
<name>searcher.dir</name>
<value>F:/project/nutch-0.7.2/crawled/gucas.ac.cn</value>
</property>
</nutch-conf>
在这里value标签就是指定你搜索的目录,这个目录,也就是开头你抓取后存放抓取内容及索引的目录。<value>F:/project/nutch-0.7.2/crawled/gucas.ac.cn</value>部分,你可以自由修改。
接下来修改tomcat/conf下的server.xml文件,将其中的Connector部分改成如下形式即可:
<Connector port="8080" maxThreads="150" minSpareThreads="25" maxSpareThreads="75"
enableLookups="false" redirectPort="8443" acceptCount="100"
connectionTimeout="20000" disableUploadTimeout="true"
URIEncoding="UTF-8" useBodyEncodingForURI="true" />
这里添加了URIEncoding="UTF-8" useBodyEncodingForURI="true"语句,目的是为了解决汉字编码问题,以免在进行中文搜索时,出现乱码。
重启tomcat服务器,IE中输入http://localhost:8080
参考文章:
一只感冒的老猫 http://blog.csdn.net/ganmao/archive/2006/02/21/604756.aspx
架设自己的搜索引擎,Nutch安装手记之二
http://www.hujys.net/blog/hzjs/ajzhn/archives/2006/238.html
相关文章推荐
- Windows下如何安装MongoDB
- 安装完samba如何从linux访问WINDOWS共享文件夹
- 如何在windows安装Eclipse
- Windows 上如何安装Sqlite
- 如何在Windows下安装gensim
- Linux和Windows下如何安装Eclipse插件propedit
- 如何从硬盘安装DOS和windows
- 如何在windows上安装MINGW
- 如何安装并使用Windows 8 Client Hyper-V
- 安装Ubuntu16.04与windows10双系统后,如何修改启动默认设置
- 如何在Windows下安装boost
- Ubuntu如何安装PlayOnLinux以便玩Windows游戏
- 《Swift入门》如何在Windows或者ubuntu下安装XCode6环境来开发Swift?
- 如何在windows安装linux系统
- 如何:在Windows中安装MongoDB
- 如何手动清除Windows上Domino的安装信息
- Nutch在Windows中安装之细解
- 如何在将Jboss 安装为Windows 服务时设定系统参数
- 教你如何在windows系统的虚拟机环境下安装苹果系统
- 如何在 windows 平台安装 GNU 环境?