您的位置:首页 > 运维架构 > Tomcat

Nutch1.2+Tomcat7.0+Cygwin网页爬虫工具搭建

2013-08-13 23:33 393 查看
1.搭建环境:
电脑机型-联想Y450;
处理器-Intel(R) Core(TM) Duo CPU T6500 @ 2.10GHZ 2.10 GHZ;
操作系统-Win7旗舰版32位;
安装内存(RAM)-2.00GB。

2.所用软件包:
jdk-7-windows-i586
apache-tomcat-7.0.27

setup-x86(32-bit installation for cygwin)
apache-nutch-1.2-bin.tar

content.rdf.u8_
3.详细安装过程:
01.JAVA安装
a.运行jdk-7u5-windows-i586,比如安装到E:\JAVA;
b.配置环境变量,通过“计算机-系统属性-高级系统设置-环境变量”进入环境变量修改环境,增加以下环境变量:
环境变量名:CATALINA_HOME,值:E:\JAVA\JDK
环境变量名:Path,值:%JAVA_HOME%\bin;%JAVA_HOME%\jre\bin;
环境变量名:CLASSPATH,值:.;%JAVA_HOME%\lib\tools.jar;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\bin;
c.环境变量配置好后,点击“WIN+R”组合键,输入cmd进入dos环境,运行“javac -version”,若显示出java版本相关信息,则java安装成功;
02.Tomcat安装
a.双击运行相应安装包,选择安装路径,如E:\Tomcat7.0;
b.配置环境变量,通过“计算机-系统属性-高级系统设置-环境变量”进入环境变量修改环境,增加以下环境变量:
环境变量名:TOMCAT_HOME,值:E:\JAVA\Tomcat7.0;
环境变量名:CATALINA_HOME,值:E:\JAVA\Tomcat7.0;
CLASSPATH后增加:%TOMCAT_HOME%\bin;%CATALINA_HOME%\common\lib\servletapi.jar;%CATALINA_HOME%\common\lib\jsp-api.jar;
PATH后增加:%CATALINA_HOME%\bin\
c.启动E:\Tomcat7.0\bin\Tomcat7完成后,浏览器输入http://127.0.0.1:8080,如果显示相应Apache Tomcat相应页面说明Tomcat安装成功。
03.Cygwin安装
a.访问http://www.cygwin.com/,下载setup-x86(32-bit installation for cygwin);
b.下载到本地后,点击setup-x86选择其中一种方式安装即可,假如安装在E:\Cygwin;
c.配置环境变量,通过“计算机-系统属性-高级系统设置-环境变量”进入环境变量修改环境,增加以下环境变量:
PATH后增加:E:\Cygwin\bin;
d.检查Cygwin是否安装成功:打开E:\Cygwin\bin下的mintty,若能正常启动则表示安装成功。
04.Nutch安装
a.解压apache-nutch-1.2-bin.tar至E:\Nutch1.2下,确保bin的母目录即为Nutch1.2;
b.启动Cygwin,运行"df"指令,检查各盘使用情况,通过cd命令改变路径到E:\Nutch1.2;
c.运行"bin/nutch"指令,若出现"Usage:Nutch [-core] COMMAND"相关提示命令,则表示Nutch安装成功,Cheers!
4.网页抓取示例:
01.Nutch1.2爬虫运行(以nutch.apache.org为例)
a.打开E:\Nutch1.2\conf下的nutch-site.xml文件,在<configuration></configuration>中增加以下内容:
<property>
[align=left] <name>http.agent.name</name>[/align]
[align=left] <value>My Nutch Spider</value>[/align]
[align=left] </property>[/align]
[align=left] <property>[/align]
[align=left] <name>http.agent.version</name>[/align]
[align=left] <value>1.0</value>[/align]
[align=left] </property>[/align]

[align=left] <property>[/align]

[align=left] <name>searcher.dir</name>[/align]
[align=left] <value>E:\Nutch1.2\crawled</value>[/align]
[align=left] </property>[/align]
[align=left] b.启动Cygwin,利用cd命令改变路径到E:\Nutch1.2;[/align]

[align=left] c.通过以下命令完成在Nutch1.2中增加urls文件,在urls中新建target.txt并增加url-http://nutch.apache.org/:[/align]
[align=left] mkdir -p urls[/align]
[align=left] cd urls[/align]
[align=left] touch target.txt[/align]
[align=left] echo http://nutch.apache.org/ >> target.txt[/align]
[align=left] d.打开E:\Nutch1.2\conf下的regex-urlfilter.txt文件,将"#accept anything else"处的"+."替换成:[/align]
[align=left] +^http://([a-z0-9]*\.)*nutch.apache.org/[/align]
[align=left] Tips:去掉nutch.apache.org/也可以,这样表示http的所有网站都爬行;[/align]
[align=left] e.Cygwin中输入命令运行爬虫:[/align]
[align=left] bin/nutch crawl urls/target.txt -dir crawled -depth 3 -topN 5 >&logs/target.log[/align]
[align=left] 若Cygwin显示"crawl finished:target",则表示抓取网页完成;[/align]
[align=left] f.如果运行出现"Exception in thread "main" java.io.IOException: Job failed! ",则可通过在Cygwin中输入"export LANG="zh_CN.GBK""即可解决;[/align]
[align=left] g.抓取网页完成后,可通过bin/nutch org.apache.nutch.searcher.NutchBean nutch进行检查是否抓取成功,如果一直显示抓取为0,则需要修改E:\Nutch1.2\conf下的nutch-site.xml的property属性。[/align]
[align=left]02.Tomcat7.0展示[/align]
[align=left] a.将nutch-1.2.war拷贝到E:\Tomcat7.0\webapps\下,重启相应Tomcat,这一步可以解压相应war文件;[/align]
[align=left] b.将E:\Nutch1.2\conf下的nutch-site.xml拷贝至E:\Tomcat7.0\webapps\nutch-1.2\WEB-INF\classes下覆盖相应nutch-site.xml文件;[/align]
[align=left] c.重启Tomcat即可,在Nutch页面输入框输入相应关键词,即可查询相关爬虫结果;[/align]
[align=left] d.解决Tomcat的编码问题,打开E:\Tomcat7.0\conf\server.xml,找到"connection Timeout="20000" redirectPort="8443"",在其后增加:URIEncoding="UTF-8" useBodyEncodingForURI="true"[/align]
[align=left] [/align]
[align=left]至此,Nutch1.2+Tomcat7.0网页爬虫工具搭建就好啦![/align]
[align=left]5.参考网址:[/align]
[align=left] 01.Nutch wiki:http://wiki.apache.org/nutch/NutchTutorial[/align]
[align=left] 02.http://wenku.baidu.com/view/a497821b6bd97f192279e99a.html[/align]
[align=left] [/align]
[align=left] [/align]
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: