2.搜索之路——Nutch搭建
2016-08-06 21:03
176 查看
2.搜索之路——Nutch搭建
https://nutch.apache.org/downloads.html
解压压缩包apache-nutch-2.3.1-src.gz
得到如下文件
build.xml
CHANGES.txt
conf
default.properties
docs
ivy
lib
LICENSE.txt
NOTICE.txt
src
将src文件夹中的文件夹复制到Eclipse的JAVA项目中刷新。
此时会出现红色的感叹号。
下载地址:http://ant.apache.org/bindownload.cgi
可以在WINDWOS和LINUX下运行。
Windows下只要将ant的bin路径设置到PATH变量即可。
TOMCAT
NUTCH
http://tomcat.apache.org/download-90.cgi
JAVA_HOME=/usr/local/jdk1.6.0_05
JAVA_BIN=$JAVA_HOME/bin
PATH=$PATH:$JAVA_BIN
CLASSPATH=$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export JAVA_HOME JAVA_BIN PATH CLASSPATH
下载完毕后,解压运行bin文件夹中的startup.bat
浏览器中输入:http://127.0.0.1:8080/ 访问正常,说明HTTP服务起来了。
Tomcat的网页主目录是/webapps/
Tomcat服务器端口是8080
#tar –xvf apache-nutch-2.3.1.tar.gz
#cd apache-nutch-2.3.1/bin
执行
#./nutch
将nutch所在路径加入到PATH变量中。
创建文件urls_crawl.txt
编辑加入入口网站。
bin/nutch crawl urls_crawl.txt -depth 2 -thread 2 -topN 2 >&craw1.log(在Nutch2.3.1后已可以)
-dir dirnames 设置保存所抓取网页的目录.
-depth depth 表明抓取网页的层次深度
-delay delay 表明访问不同主机的延时,单位为“秒”
-threads threads 表明需要启动的线程数
-topN 1000 表明只抓取每一层的前N个URL
1 官方连接和下载地址
https://nutch.apache.org/https://nutch.apache.org/downloads.html
2 下载后解压
蛤蟆此处使用的是windows.解压压缩包apache-nutch-2.3.1-src.gz
得到如下文件
build.xml
CHANGES.txt
conf
default.properties
docs
ivy
lib
LICENSE.txt
NOTICE.txt
src
将src文件夹中的文件夹复制到Eclipse的JAVA项目中刷新。
此时会出现红色的感叹号。
3 关于ANT
ant是目前java环境下最好用的打包部署工具,其采用xml的格式进行编写,功能非常强大。下载地址:http://ant.apache.org/bindownload.cgi
可以在WINDWOS和LINUX下运行。
Windows下只要将ant的bin路径设置到PATH变量即可。
4 环境准备
JAVATOMCAT
NUTCH
4.1 下载
Tomcat下载http://tomcat.apache.org/download-90.cgi
5 TOMCAT
设置JAVA环境变量:(PS环境变量根据所安装的JAVA版本会有差异请注意)JAVA_HOME=/usr/local/jdk1.6.0_05
JAVA_BIN=$JAVA_HOME/bin
PATH=$PATH:$JAVA_BIN
CLASSPATH=$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export JAVA_HOME JAVA_BIN PATH CLASSPATH
下载完毕后,解压运行bin文件夹中的startup.bat
浏览器中输入:http://127.0.0.1:8080/ 访问正常,说明HTTP服务起来了。
Tomcat的网页主目录是/webapps/
Tomcat服务器端口是8080
6 Nutch
解压下载的Nutch包,解压#tar –xvf apache-nutch-2.3.1.tar.gz
#cd apache-nutch-2.3.1/bin
执行
#./nutch
将nutch所在路径加入到PATH变量中。
6.1 设置NUTCH
创建urls文件夹创建文件urls_crawl.txt
编辑加入入口网站。
bin/nutch crawl urls_crawl.txt -depth 2 -thread 2 -topN 2 >&craw1.log(在Nutch2.3.1后已可以)
-dir dirnames 设置保存所抓取网页的目录.
-depth depth 表明抓取网页的层次深度
-delay delay 表明访问不同主机的延时,单位为“秒”
-threads threads 表明需要启动的线程数
-topN 1000 表明只抓取每一层的前N个URL
相关文章推荐
- Java自学手记——struts2
- 体验标签的用法
- C++ 值传递、指针传递、引用传递详解
- 最大费用循环流(帮助小罗拉,uva 1659)
- CodeForces-696C Please(数学题,快速幂取模,乘法逆元)
- VS2013配置opencv
- poj2524 Ubiquitous Religions
- 结构体的使用简述
- 1119 Collecting Coins 湖南省第八届
- 解决Emacs无法输入中文的问题
- 1.搜索之路——Nutch与Lucene
- 约瑟夫问题
- 如何使用Git上传项目代码到github
- NYOJ-35 表达式求值
- php trim()函数
- 跟我一起写Makefile(2)--- Makefile介绍+Makefile规则
- RecycleView从显示到下拉刷新和加载更多
- 期货的形成和发展
- MYSQL --Subquery returns more than 1 row查询结果多于一行
- leetcode No81. Search in Rotated Sorted Array II