您的位置：首页 > 其它

【垂直搜索引擎搭建06】heritrix：取消Robot.txt限制

2016-08-14 16:26 295 查看

Robot.txt是一种专门用于搜索引擎网络爬虫的文件，当构建一个网站时，如果希望该网站的内容被搜索引擎收录，就可以在网站中创建一个robot.txt文件，在这个文件中，声明该网站不想被robot访问的部分。

heritrix在其说明文档中，表明它是一个完全遵守robot.txt协议的网络爬虫。但是如果一个网站并没有放置robot.txt，heritrix仍然花费大量时间去访问这个文件，这样就降低了抓取效率，为了提高抓取效率，可以对robot.txt的访问进行去除。

heritrix中，对robot.txt文件的处理是处于PreconditionEnforcer这个Processor中的，PreconditionEnforcer是一个Prefetcher。

使用最简单的方法来进行处理，将整个方法内部全部注释掉，只保留一个false的返回值。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 搜索引擎

相关文章推荐

新的分享

章节导航