您的位置:首页 > 其它

【垂直搜索引擎搭建06】heritrix:取消Robot.txt限制

2016-08-14 16:26 295 查看
Robot.txt是一种专门用于搜索引擎网络爬虫的文件,当构建一个网站时,如果希望该网站的内容被搜索引擎收录,就可以在网站中创建一个robot.txt文件,在这个文件中,声明该网站不想被robot访问的部分。

heritrix在 其说明文档中,表明它是一个完全遵守robot.txt协议的网络爬虫。但是如果一个网站并没有放置robot.txt,heritrix仍然花费大量时间去访问这个文件,这样就降低了抓取效率,为了提高抓取效率,可以对robot.txt的访问进行去除。

heritrix中,对robot.txt文件的处理是处于PreconditionEnforcer这个Processor中的,PreconditionEnforcer是一个Prefetcher。



使用最简单的方法来进行处理,将整个方法内部全部注释掉,只保留一个false的返回值。



内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  搜索引擎