自己动手搭建搜索引擎
2011-11-27 02:25
375 查看
Nutch1.0配置笔记
一、简介
Nutch是一个开源的Web搜索引擎。
主要分为两个部分:爬虫crawler和查询searcher,两者之间的接口是索引。
二、需要的软件
JDK1.6
Tomcat6.0
cygwin
nutch1.0
三、安装与配置
1. JDK
下载地址:http://www.sun.com
安装目录:C:\Java\jdk1.6.0_14
修改环境变量:
JAVA_HOME= C:\Java\jdk1.6.0_14
CLASSPATH= C:\Java\jdk1.6.0_14\lib\dt.jar; C:\Java\jdk1.6.0_14\lib\tool.jar
PATH= %JAVA_HOME%\bin
测试:
Java -version
2. Tomcat6.0
下载地址:
http://tomcat.apache.org/download-60.cgi?Preferred=http%3A%2F%2Fapache.freelamp.com
安装目录:C:\tomcat6
安装测试:
a) 启动tomcat:在DOS下,cd C:\tomcat6\bin\startup.bat
b) 浏览器地址栏输入:
http://localhost:8080/
出现tomcat主页则成功
更改C:\tomcat6\conf \tomcat-users.xml内容
<tomcat-users>
<role rolename="manager"/>
<user username="tomcat" password="tomcat" roles="manager"/>
</tomcat-users>
3. Cygwin
下载地址:
http://www.cygwin.cn/
使用原因:
运行Nutch自带的脚本命令需要Linux的环境,使用cygwin来模拟该环境。cygwin是在windows平台上运行的unix模拟环境。
安装目录:C:\cygwin
注意:在选择下载站点需要输入如下网址,并在最后选择本地磁盘安装:
http://www.cygwin.cn/pub/
测试:
进入cygwin
4. Nutch
下载地址:
http://www.apache.org/dyn/closer.cgi/lucene/nutch/
版本:nutch-1.0
解压后到:C:\nutch-1.0
设置Nutch的环境变量:
NUTCH_JAVA_HOME= C:\Java\jdk1.6.0_14
修改环境变量PATH :
PATH=%JAVA_HOME%\bin; %NUTCH_JAVA_HOME%
在C:\nutch-1.0下建立url.txt文件来制定爬去列表
在txt文件中写入需要爬取的网站地址http://dblp.lab/
测试:
开启Cygwin
cd cygdriver/c/nutch-1.0
bin/nutch
若出现若干命令,则说明Nutch配置成功
四、抓取网页数据
1. 指定爬虫规则
修改Nutch-1.0/conf/crawl-urlfilter.txt
# accept hosts in MY.DOMAIN.NAME
+^http://dblp.lab/
改成
+^http://litclive.blog.51cto.com/
修改Nutch-1.0/conf/nutch-site.xml
<configuration>
<property>
<name>http.agent.name</name>
<value>my nutch agent</value>
</property>
<property>
<name>http.agent.version</name>
<value>1.0</value>
</property>
</configuration>
2. 开始爬取
3. 打开Cygwin
4. 在命令行输入
cd /cygdrive/c/nutch-1.0
5. 执行命令
bin/nutch crawl url.txt -dir crawled -depth 3 - threads 4 >&crawl.log
其中:dir是指定爬取内容所存放的目录,depth表示以要爬取网站顶级网址为起点的爬行深度,threads指定并发的线程数
6. 爬取中......(采集网页并建立索引)
7. 结束后在Nutch目录下产生爬取内容的文件夹crawled和日志文件夹logs
五、部署Web前端
1. 将nutch-1.0.war拷贝到webapps目录下
2. 通过浏览器访问如下网址,war包会自解压 http://localhost:8080/nutch-1.0/
3. 修改nutch的web配置
更改c:\tomcat6\webapps\nutch-1.0\WEB-INF\classes\nutch-site.xml ,将内容更改为索引生成的目录
<?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="nutch-conf.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<nutch-conf>
<property>
<name>searcher.dir</name>
<value>C:\nutch-1.0\crawled</value>
</property>
</nutch-conf>
六、解决中文乱码问题
修改文件C:\tomcat6\conf\server.xml
<Connector port="8080" maxThreads="150" minSpareThreads="25"
maxSpareThreads="75" enableLookups="false" redirectPort="8443"
acceptCount="100" connectionTimeout="20000" disableUploadTimeout="true"
URIEncoding="UTF-8" useBodyEncodingForURI="true" protocol="HTTP/1.1" />
七、搭建完成
1. 启动Tomcat
2. 通过浏览器访问 http://localhost:8080/nutch-1.0/
本文出自 “我是一只小小鸟” 博客,请务必保留此出处http://litclive.blog.51cto.com/628198/726152
一、简介
Nutch是一个开源的Web搜索引擎。
主要分为两个部分:爬虫crawler和查询searcher,两者之间的接口是索引。
二、需要的软件
JDK1.6
Tomcat6.0
cygwin
nutch1.0
三、安装与配置
1. JDK
下载地址:http://www.sun.com
安装目录:C:\Java\jdk1.6.0_14
修改环境变量:
JAVA_HOME= C:\Java\jdk1.6.0_14
CLASSPATH= C:\Java\jdk1.6.0_14\lib\dt.jar; C:\Java\jdk1.6.0_14\lib\tool.jar
PATH= %JAVA_HOME%\bin
测试:
Java -version
2. Tomcat6.0
下载地址:
http://tomcat.apache.org/download-60.cgi?Preferred=http%3A%2F%2Fapache.freelamp.com
安装目录:C:\tomcat6
安装测试:
a) 启动tomcat:在DOS下,cd C:\tomcat6\bin\startup.bat
b) 浏览器地址栏输入:
http://localhost:8080/
出现tomcat主页则成功
更改C:\tomcat6\conf \tomcat-users.xml内容
<tomcat-users>
<role rolename="manager"/>
<user username="tomcat" password="tomcat" roles="manager"/>
</tomcat-users>
3. Cygwin
下载地址:
http://www.cygwin.cn/
使用原因:
运行Nutch自带的脚本命令需要Linux的环境,使用cygwin来模拟该环境。cygwin是在windows平台上运行的unix模拟环境。
安装目录:C:\cygwin
注意:在选择下载站点需要输入如下网址,并在最后选择本地磁盘安装:
http://www.cygwin.cn/pub/
测试:
进入cygwin
4. Nutch
下载地址:
http://www.apache.org/dyn/closer.cgi/lucene/nutch/
版本:nutch-1.0
解压后到:C:\nutch-1.0
设置Nutch的环境变量:
NUTCH_JAVA_HOME= C:\Java\jdk1.6.0_14
修改环境变量PATH :
PATH=%JAVA_HOME%\bin; %NUTCH_JAVA_HOME%
在C:\nutch-1.0下建立url.txt文件来制定爬去列表
在txt文件中写入需要爬取的网站地址http://dblp.lab/
测试:
开启Cygwin
cd cygdriver/c/nutch-1.0
bin/nutch
若出现若干命令,则说明Nutch配置成功
四、抓取网页数据
1. 指定爬虫规则
修改Nutch-1.0/conf/crawl-urlfilter.txt
# accept hosts in MY.DOMAIN.NAME
+^http://dblp.lab/
改成
+^http://litclive.blog.51cto.com/
修改Nutch-1.0/conf/nutch-site.xml
<configuration>
<property>
<name>http.agent.name</name>
<value>my nutch agent</value>
</property>
<property>
<name>http.agent.version</name>
<value>1.0</value>
</property>
</configuration>
2. 开始爬取
3. 打开Cygwin
4. 在命令行输入
cd /cygdrive/c/nutch-1.0
5. 执行命令
bin/nutch crawl url.txt -dir crawled -depth 3 - threads 4 >&crawl.log
其中:dir是指定爬取内容所存放的目录,depth表示以要爬取网站顶级网址为起点的爬行深度,threads指定并发的线程数
6. 爬取中......(采集网页并建立索引)
7. 结束后在Nutch目录下产生爬取内容的文件夹crawled和日志文件夹logs
五、部署Web前端
1. 将nutch-1.0.war拷贝到webapps目录下
2. 通过浏览器访问如下网址,war包会自解压 http://localhost:8080/nutch-1.0/
3. 修改nutch的web配置
更改c:\tomcat6\webapps\nutch-1.0\WEB-INF\classes\nutch-site.xml ,将内容更改为索引生成的目录
<?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="nutch-conf.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<nutch-conf>
<property>
<name>searcher.dir</name>
<value>C:\nutch-1.0\crawled</value>
</property>
</nutch-conf>
六、解决中文乱码问题
修改文件C:\tomcat6\conf\server.xml
<Connector port="8080" maxThreads="150" minSpareThreads="25"
maxSpareThreads="75" enableLookups="false" redirectPort="8443"
acceptCount="100" connectionTimeout="20000" disableUploadTimeout="true"
URIEncoding="UTF-8" useBodyEncodingForURI="true" protocol="HTTP/1.1" />
七、搭建完成
1. 启动Tomcat
2. 通过浏览器访问 http://localhost:8080/nutch-1.0/
本文出自 “我是一只小小鸟” 博客,请务必保留此出处http://litclive.blog.51cto.com/628198/726152
相关文章推荐
- 自己动手搭建搜索引擎(基于Nutch1.0) lucene 很简单,已成功
- 自己动手搭建MinGW
- 自己动手写操作系统(二)——搭建bochs环境
- 自己动手搭建 MongoDB 环境,并建立一个 .NET HelloWorld 程序测试
- 动手搭建自己的计算集群系统
- 自己动手写搜索引擎(常搜吧历程五#解析文档之XML#)(Java、Lucene、hadoop)
- micropython之动手搭建自己的MQTT服务器并实现通信(点亮led)
- 自己动手搭建搜索工具
- 自己动手写搜索引擎(常搜吧项目展示)(Java、Lucene、hadoop)
- 为嵌入式开发板客户端自己动手在虚拟机上搭建时间同步NTP服务器
- 自己动手搭建Nginx+memcache+xdebug+php运行环境绿色版 For windows版
- 自己动手搭建ava通用开发框架之三—通用权限模型建立
- 自己动手搭建 MongoDB 环境,并建立一个 .NET HelloWorld 程序测试
- Iveely 搜索引擎0.3.0 发布 & 如何搭建自己的搜索引擎
- 自己动手写操作系统(二)——搭建bochs环境
- Ubuntu下bochs的安装配置-自己动手写操作系统环境搭建
- 自己动手搭建苹果推送Push服务器
- 自己动手搭建Git服务器-Gitblit
- 自己动手写搜索引擎系列【目录】
- 菜鸟的Hadoop学习之路系列<一>:自己动手搭建Hadoop集群