Nutch 1.6 安装过程
2017-08-21 19:53
281 查看
今天小编将要给大家简单讲解一下Nutch,Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。
下面小编讲解一下如何安装Nutch,小编采用的CentOS 7 系统,Java version 1.6.0_45 (JDK的安装小编就不说了)。
因为Nutch官方的源代码是放在了SVN上,所以我们首先下载安装一个SVN,在通过SVN对Nutch源码进行下载。
小编使用的是 nutch1.6 版本的,比较老的版本,小编会在后面的文章中更新比较新的版本内容。
如果没有安装svn 可以使用 yum安装 命令如下:
(一)安装SVN:
使用命令:
(二)安装完svn后可以从apache官方的版本库中下载相关nutch的源码:
下载后,Nutch 的配置文件放在conf 目录中。依赖包放在了ivy 文件夹中。
下载完成后,因为仅仅是源码,相关jar包是不包含在其中的,nutch是使用ivy进行依赖管理的,通过ivy来下载nutch的相关依赖jar包
(三)进入release-1.6目录下进行构建,需要liunx中安装有ant命令,没有的话需要先安装ant,安装方式同 SVN,使用yum安装
这个等待的时间比较长。
(四)release-1.6目录下进行构建,输入 ant 命令
在ant 构建之后,会发现在release-1.6目录下新生成了runtime目录,下面有两个子文件夹:deploy ,local, 分别代表了Nutch的两种运行方式。
Deploy使用了Hadoop方式来运行,Local使用了本地文件系统来运行,对Hadoop没有依赖。
(五)在runtime local 里面建立一个新的目录 urls
(六)修改本机的hostname为localhost。如下:
#hostname
#cat /proc/sys/kernel/hostname
上面两种输出结果相同。
修改运行时Linux系统的hostname,即不需要重启系统
hostname命令可以设置系统的hostname
#hostname localhost
未改成localhost 将出现错误,将hostname改为localhost 错误就将结束,运行后立即生效,但是在系统重启后会丢失所做的修改,如果要永久更改系统的hostname,就要修改相关的设置文件 /etc/hosts。这个小编就不讲解了。
(七)vi release-1.6/conf/nutch-site.xml 文件中增加http.agent.name,配置
具体的一些配置可以参考小编的这个博客内容:
http://blog.csdn.net/shuaigexiaobo/article/details/77470837
(八)在回到release-1.6中,运行ant命令
(九)进入runtime/local 目录,建立一个新的文件夹data
建立好新的目录之后,在命令行 输入 :
若有报错的文件夹,删除报错的文件夹即可。
下面小编讲解一下如何安装Nutch,小编采用的CentOS 7 系统,Java version 1.6.0_45 (JDK的安装小编就不说了)。
因为Nutch官方的源代码是放在了SVN上,所以我们首先下载安装一个SVN,在通过SVN对Nutch源码进行下载。
小编使用的是 nutch1.6 版本的,比较老的版本,小编会在后面的文章中更新比较新的版本内容。
如果没有安装svn 可以使用 yum安装 命令如下:
(一)安装SVN:
使用命令:
yum -y install subversion
(二)安装完svn后可以从apache官方的版本库中下载相关nutch的源码:
svn co https://svn.apache.org/repos/asf/nutch/tags/release-1.6/
下载后,Nutch 的配置文件放在conf 目录中。依赖包放在了ivy 文件夹中。
下载完成后,因为仅仅是源码,相关jar包是不包含在其中的,nutch是使用ivy进行依赖管理的,通过ivy来下载nutch的相关依赖jar包
(三)进入release-1.6目录下进行构建,需要liunx中安装有ant命令,没有的话需要先安装ant,安装方式同 SVN,使用yum安装
yum install ant
这个等待的时间比较长。
(四)release-1.6目录下进行构建,输入 ant 命令
ant
在ant 构建之后,会发现在release-1.6目录下新生成了runtime目录,下面有两个子文件夹:deploy ,local, 分别代表了Nutch的两种运行方式。
Deploy使用了Hadoop方式来运行,Local使用了本地文件系统来运行,对Hadoop没有依赖。
(五)在runtime local 里面建立一个新的目录 urls
vi urls/url.txt在该文件里面加入想要爬取的url。
(六)修改本机的hostname为localhost。如下:
#hostname
#cat /proc/sys/kernel/hostname
上面两种输出结果相同。
修改运行时Linux系统的hostname,即不需要重启系统
hostname命令可以设置系统的hostname
#hostname localhost
未改成localhost 将出现错误,将hostname改为localhost 错误就将结束,运行后立即生效,但是在系统重启后会丢失所做的修改,如果要永久更改系统的hostname,就要修改相关的设置文件 /etc/hosts。这个小编就不讲解了。
(七)vi release-1.6/conf/nutch-site.xml 文件中增加http.agent.name,配置
vi release-1.6/conf/nutch-site.xml
具体的一些配置可以参考小编的这个博客内容:
http://blog.csdn.net/shuaigexiaobo/article/details/77470837
(八)在回到release-1.6中,运行ant命令
ant
(九)进入runtime/local 目录,建立一个新的文件夹data
建立好新的目录之后,在命令行 输入 :
nohup bin/nutch crawl urls -dir data -threads 20 -depth 1 &开始对数据进行抓取。
若有报错的文件夹,删除报错的文件夹即可。
相关文章推荐
- Linux Redhat5 jdk1.6安装过程
- nutch1.6安装与在myeclipse上部署
- nutch1.6安装使用中错误解决方法
- 安装jdk1.6过程中Windows Installer程序包有问题,此安装需要的DLL不能运行
- Windows下Nutch的安装过程
- POCO 1.6+VS2008+MySql+OpenSSL安装过程
- Windows下Nutch的安装过程
- Nutch-1.6在Hadoop环境下的安装配置
- nutch 搜索引擎安装全过程(原创)windows下
- ubuntu下hadoop安装过程中遇到的问题
- Win7上Git图形界面安装及配置过程
- sql server 2008安装及使用过程中的一些问题
- ORACLE RAC之--安装过程中碰到的问题及解决方法 推荐
- WINXP系统安装完毕优化全过程
- GeoServer+MySQL安装及配置过程
- gvim配置及相关插件安装(过程详细,附图)
- VMware 11安装OS X 10.10全过程
- redis 安装过程
- 对于CocoaPods的简单理解,实践安装使用过程和常见问题
- Windows下,Nutch安装配置指南