您的位置:首页 > 其它

Nutch 1.6 安装过程

2017-08-21 19:53 281 查看
    今天小编将要给大家简单讲解一下Nutch,Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

    下面小编讲解一下如何安装Nutch,小编采用的CentOS 7 系统,Java  version 1.6.0_45 (JDK的安装小编就不说了)。

    因为Nutch官方的源代码是放在了SVN上,所以我们首先下载安装一个SVN,在通过SVN对Nutch源码进行下载。

    小编使用的是 nutch1.6 版本的,比较老的版本,小编会在后面的文章中更新比较新的版本内容。

    如果没有安装svn 可以使用 yum安装 命令如下:

    (一)安装SVN:

    使用命令:

yum -y install subversion


    (二)安装完svn后可以从apache官方的版本库中下载相关nutch的源码:  

svn co https://svn.apache.org/repos/asf/nutch/tags/release-1.6/


    下载后,Nutch 的配置文件放在conf 目录中。依赖包放在了ivy 文件夹中。

    下载完成后,因为仅仅是源码,相关jar包是不包含在其中的,nutch是使用ivy进行依赖管理的,通过ivy来下载nutch的相关依赖jar包

    (三)进入release-1.6目录下进行构建,需要liunx中安装有ant命令,没有的话需要先安装ant,安装方式同 SVN,使用yum安装    

yum install ant


    这个等待的时间比较长。

    (四)release-1.6目录下进行构建,输入 ant 命令

ant


    在ant 构建之后,会发现在release-1.6目录下新生成了runtime目录,下面有两个子文件夹:deploy ,local, 分别代表了Nutch的两种运行方式。 

    Deploy使用了Hadoop方式来运行,Local使用了本地文件系统来运行,对Hadoop没有依赖。

   (五)在runtime local 里面建立一个新的目录 urls

vi urls/url.txt
     在该文件里面加入想要爬取的url。

    (六)修改本机的hostname为localhost。如下:

       #hostname

  #cat /proc/sys/kernel/hostname

  上面两种输出结果相同。

  修改运行时Linux系统的hostname,即不需要重启系统

  hostname命令可以设置系统的hostname

  #hostname localhost   

  未改成localhost 将出现错误,将hostname改为localhost 错误就将结束,运行后立即生效,但是在系统重启后会丢失所做的修改,如果要永久更改系统的hostname,就要修改相关的设置文件 /etc/hosts。这个小编就不讲解了。

    (七)vi release-1.6/conf/nutch-site.xml 文件中增加http.agent.name,配置

vi release-1.6/conf/nutch-site.xml

    具体的一些配置可以参考小编的这个博客内容:

     http://blog.csdn.net/shuaigexiaobo/article/details/77470837

    (八)在回到release-1.6中,运行ant命令

ant


    (九)进入runtime/local 目录,建立一个新的文件夹data

     建立好新的目录之后,在命令行 输入 :

nohup bin/nutch crawl urls -dir data -threads 20 -depth 1 &
    开始对数据进行抓取。

    若有报错的文件夹,删除报错的文件夹即可。

   

    
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  nutch 安装 数据