【垂直搜索引擎搭建06】heritrix:取消Robot.txt限制
2016-08-14 16:26
295 查看
Robot.txt是一种专门用于搜索引擎网络爬虫的文件,当构建一个网站时,如果希望该网站的内容被搜索引擎收录,就可以在网站中创建一个robot.txt文件,在这个文件中,声明该网站不想被robot访问的部分。
heritrix在 其说明文档中,表明它是一个完全遵守robot.txt协议的网络爬虫。但是如果一个网站并没有放置robot.txt,heritrix仍然花费大量时间去访问这个文件,这样就降低了抓取效率,为了提高抓取效率,可以对robot.txt的访问进行去除。
heritrix中,对robot.txt文件的处理是处于PreconditionEnforcer这个Processor中的,PreconditionEnforcer是一个Prefetcher。
使用最简单的方法来进行处理,将整个方法内部全部注释掉,只保留一个false的返回值。
heritrix在 其说明文档中,表明它是一个完全遵守robot.txt协议的网络爬虫。但是如果一个网站并没有放置robot.txt,heritrix仍然花费大量时间去访问这个文件,这样就降低了抓取效率,为了提高抓取效率,可以对robot.txt的访问进行去除。
heritrix中,对robot.txt文件的处理是处于PreconditionEnforcer这个Processor中的,PreconditionEnforcer是一个Prefetcher。
使用最简单的方法来进行处理,将整个方法内部全部注释掉,只保留一个false的返回值。
相关文章推荐
- heritrix中在Prefetcher中取消robots.txt的限制
- 【垂直搜索引擎搭建02】heritrix启动
- heritrix 在Prefetcher中取消robots.txt的限制
- 【垂直搜索引擎搭建03】heritrix:扩展FontierScheduler抓取特定的信息
- 【垂直搜索引擎搭建04】heritrix:扩展Extractor
- 【垂直搜索引擎搭建05】heritrix:Queue-assignment-policy
- 【垂直搜索引擎搭建01】heritrix环境搭建
- heritrix 在Prefetcher中取消robots.txt的限制
- 【垂直搜索引擎搭建08】HtmlParser构建
- 【垂直搜索引擎搭建12】htmlparser简介
- robot.txt 搜索引擎 蜘蛛爬虫 搜索规则
- 【课程分享】基于Lucene4.6+Solr4.6+Heritrix1.14+S2SH实战开发从无到有垂直搜索引擎
- 【垂直搜索引擎搭建11】使用htmlparser获取页面的字符编码encoding
- 【Python3 爬虫】06_robots.txt查看网站爬取限制情况
- 【垂直搜索引擎搭建13】HtmlParser中Visitor实践
- 【垂直搜索引擎搭建14】HtmlParser中Filter方法(URL网络地址)
- 基于Lucene4.6+Solr4.6+Heritrix1.14+S2SH实战开发从无到有垂直搜索引擎
- 【垂直搜索引擎搭建10】HtmlParser中Filter实践
- 【垂直搜索引擎搭建00】说在前面的话
- 【垂直搜索引擎搭建09】HtmlParser案例代码