信息检索大作业:在Windows XP上搭建 nutch-0.9 搜索引擎环境
2012-04-02 14:00
337 查看
零、软件资源
1 cygwin2 jdk1.6.0_10
3 nutch-0.9
4 Tomcat
自行寻找下载
http://download.csdn.net/detail/handyhuang/4195140
一、 实验目的
1 基本环境建立:在windows XP搭建一个独立完整的nutch的测试平台,此平台搭建完毕可以直接拷贝到任意windows XP电脑上使用,免去重复搭建的问题。2 抓取行业信息:抓取DVBCN 网站行业内容,以此为数据库,测试nutch搜索引擎。
3 搜索测试:通过tomcat搭建web平台,实现使用nutch搜素引擎进行垂直搜索。
4 掌握nutch的搭建,使用。
二、 实验过程
目标1:基本环境建立
完成目标1,首先要解决环境变量设置问题,主要技术思路采用bat批处理进行CMD终端的临时环境变量设置,CMD终端关闭后系统的环境变量自动恢复,不影响电脑。主要步骤如下:第一步 在windows的任意盘根目录下(比如D盘)创建nutch-10R0585目录,作为nutch平台的根目录,然后将cygwin,jdk1.6.0_10,nutch-0.9,Tomcat都安装或者解压到nutch-10R0585目录。nutch的平台所需软件就已经齐全了。
为了减小cygwin体积,我进行了剪裁,只保留bin下的少数exe文件,只要能保证nutchshell脚本可以正确执行即可。
第二步设置nutch运行环境的临时环境变量,创建NUTCH.bat批处理脚本,内容如下:
主要作用就是当用户用鼠标双击NUTCH.bat后,进入CMD终端,并且调用env_set.bat批处理文件,env_set.bat的主要作用是设置临时环境变量,内容如下:
第三步 环境验证,主要通过以下几个命令进行验证,截图如下:
Java版本号应该与nutch-10R0585下的jdk里的java版本号一致。以上都没问题,那么可以完成第二个目标。
目标2:抓取行业信息
第一步 在\nutch-10R0585\nutch-0.9\bin目录下建立urls目录,在\nutch-10R0585\nutch-0.9\bin\urls目录下创建nutch.txt文本文件, 内容如下:可能有些版本原因,输入一个网址会有问题,因此可以随便写第二个网址在文件里
第二步打开\nutch-10R0585\nutch-0.9\conf\crawl-urlfilter.txt文件 找到^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/ 这一行 注销此行,输入要抓取的网站domain:
并保存。
第三步 打开\nutch-10R0585\nutch-0.9\conf \conf\nutch-site.xml文件,将
文本内容覆盖原有的
<configuration>
</configuration>
并且保存
第四步 聚焦到我们在基本环境建立时打开的终端上面,此时我们应该在CMD终端的\nutch-10R0585\nutch-0.9\bin目录,如果不确定,
cd %NUTCHHOME%/nutch-0.9/bin
sh nutch crawl urls -dir DVBCN -depth 4-threads 5 -topN 500 > dvbcn.log
这里-dir表示存储的目录,-depth表示网址爬的深度,最后是指明日志文件
运行结束后,你可以打开日志文件查看爬虫运行的详细过程。同时在\nutch-10R0585\nutch-0.9\bin目录下生成了抓取网页的数据库,在DVBCN目录下。那么nutch要检索的内容目录就是D:\nutch-10R0585\nutch-0.9\bin\DVBCN。
至此我已经完成DVBCN行业网站的信息抓取目标,下面就是实现通过web方式使用nutch搜素引擎进行垂直搜索了。
目标3:搜索测试
第一步 将\nutch-10R0585\nutch-0.9\nutch-0.9目录的nutch-0.9.war拷贝到\nutch-10R0585\Tomcat\webapps目录下第二步 打开\nutch-10R0585\Tomcat\conf\server.xml文件,将
<Connector port="80"maxHttpHeaderSize="8192"
maxThreads="150"minSpareThreads="25" maxSpareThreads="75"
enableLookups="false"redirectPort="8443" acceptCount="100"
connectionTimeout="20000"
disableUploadTimeout="true"
URIEncoding="UTF-8"useBodyEncodingForURI="true"/>
添加到文件,并保存。
第三步 cd %NUTCHHOME%/Tomcat/bin,通过startup.bat 启动 tomcat服务,也不可以通过shutdown.bat 关闭 tomcat服务。
启动tomcat服务后,会在\nutch-10R0585\Tomcat\webapps生成nutch-0.9目录,打开\nutch-10R0585\Tomcat\webapps\nutch-0.9\WEB-INF\classes\nutch-site.xml
将原有
<configuration>
</configuration>
替换
保存
第四步 打开\nutch-10R0585\Tomcat\webapps\nutch-0.9\search.jsp
将 151行的<jsp:includepage="<%= language + "/include/header.html"%>"/>
修改:<jsp:include page='<%= language +"/include/header.html"%>'/>
避免发生web搜索出现HTTP Status 500 -
第五步 打开浏览器,在地址栏输入http://127.0.0.1/nutch-0.9/,进行相关搜索测试
截图如下:
相关文章推荐
- windows XP下nutch-1.0搜索引擎环境搭建
- Ubuntu环境下Nutch+Tomcat 搭建简单的搜索引擎
- 搜索引擎环境搭建nutch2.2.1+solr4.2+mysql5.7(附PHP solr拓展安装)
- 基于hadoop+nutch+solr的搜索引擎环境搭载<一>hadoop完全分布式环境搭建
- 【Nutch2.3基础教程】集成Nutch/Hadoop/Hbase/Solr构建搜索引擎:安装及运行【集群环境】
- windows xp下android开发环境搭建
- Windows XP下GTK开发环境搭建
- Windows XP中搭建javaweb发布环境
- 【实战\聚焦Python分布式爬虫必学框架Scrapy 打造搜索引擎项目笔记】第2章 windows下搭建开发环境
- Windows XP下搭建一个Web开发环境
- Android学习笔记(一)Windows XP 下Android开发环境搭建
- windows xp中 php 开发环境搭建
- Nutch1.7学习笔记1:基本环境搭建及使用
- windows xp 下搭建gtkmm开发环境
- 【Nutch2.3基础教程】集成Nutch/Hadoop/Hbase/Solr构建搜索引擎:安装及运行【集群环境】
- 使用Lucene开发简单的站内新闻搜索引擎(环境的搭建)
- [Nutch]Nutch+Eclipse+Tomcat+Solr+Cygwin搭建Windows开发环境
- Windows XP下搭建GTK+开发环境
- 在windows XP下搭建android开发环境
- 信息检索:对搜索引擎性能的评价指标的小作业---pooling方法以及MAP value的计算