您的位置:首页 > 其它

nutch1.2测试

2015-05-17 16:15 148 查看
上一篇介绍的是环境的搭建,这一篇继续上一篇的步骤,介绍一下对于环境搭建起来之后测试和使用问题。
1、查看生成的文件,如果命令执行成功的话,在你指定的dir_name中,你会发现5个文件夹,分别是:crawldb、linkdb、segments、indexs、index,各自作用为:
crawldb和linkdb:是为nutch抓取数据的爬虫使用的,包话创建和增加新数据
segments:包括抓取下来的数据文件,一般是看不清里边居的,经过nutch的处理
indexs:放的分索引
index:放的是各个indexs目录分索引的一个统一索引,也就是说用的时候是用index中的。
2、通过了第一步说明抓取和建立索引已经完成了,可以进行测试了,有两种方法,用命令行形行 nutch org.apache.nutch.crawl.Crawel key_words的形式或是用tomcat的网页形来看的,我们选择后者,比较直观些。
在window上安装tomcat是很简单的了,就不多说了,然后在nutch1.2的发布版中的根目录中可以发现nutch-1.2.war的war包,是一个nutch测试的demo案例,把拷贝至tomcat的webapp中,启动或重启tomcat就可以了,之后,进入解压后的nutch-1.2中的conf的nutch-site.xml中,添加两个属性,
<property>
<name>http.agent.name</name><value>自定义随便的名字</value>
<name>searcher.dir</name><value>nutch抓取网页后所生成的指定的那个目录(就是nutch命令中-dir dirName 的dirName)</value>
</property>
3、重启一下tomcat之后,在浏览器中输入相应的地址查看,http:Ip_address:port/nutch-1.2/就可以了,若能看到那个搜索界面你就成功大半了。输入相应的你搜索网页的关键字进行搜索,一般是可以相应结果的,若没有的话,可能是你的tomcat目录有点问题,就是nutch的一个bug吧,不允许有空格在tomcat的安装目录中,注意一下就好了。
4、对中文的支持,是tomcat的字符集问题,进入tomcat的安装目录中的conf下的server.xml,有个connector属性,其中有对应的端口等,在其中加个URIEncoding="UTF-8"就可以进行中文检索了。即

<Connector port="80" protocol="HTTP/1.1"
connectionTimeout="20000"
redirectPort="8443" URIEncoding="UTF-8" />
至此已经完了,如果出现了理想中的界面的话,就祝贺你了,当然问题是难免的,还有问题的话,可以留言进行交流。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: