scrapy爬虫出现Forbidden by robots.txt
2017-05-02 12:54
309 查看
转自:http://blog.csdn.net/yimingsilence/article/details/52119720
先说结论,关闭scrapy自带的ROBOTSTXT_OBEY功能,在setting找到这个变量,设置为False即可解决。
使用scrapy爬取淘宝页面的时候,在提交http请求时出现debug信息Forbidden by robots.txt,看来是请求被拒绝了。开始因为是淘宝页面有什么保密机制,防止爬虫来抓取页面,于是在spider中填入各种header信息,伪装成浏览器,结果还是不行。。。用chrome抓包看了半天感觉没有影响简单页面抓取的机制(其他保密机制应该还是有的,打开一个页面时,向不同服务器递交了很多请求,还设定了一些不知道干啥的cookies),最后用urllib伪造请求发现页面都能抓取回来。于是上网查了一下robot.txt是什么,发现原来有个robot协议,终于恍然大悟:
我们观察scrapy抓包时的输出就能发现,在请求我们设定的url之前,它会先向服务器根目录请求一个txt文件:
2016-06-10 18:16:26 [scrapy] DEBUG: Crawled (200)
先说结论,关闭scrapy自带的ROBOTSTXT_OBEY功能,在setting找到这个变量,设置为False即可解决。
使用scrapy爬取淘宝页面的时候,在提交http请求时出现debug信息Forbidden by robots.txt,看来是请求被拒绝了。开始因为是淘宝页面有什么保密机制,防止爬虫来抓取页面,于是在spider中填入各种header信息,伪装成浏览器,结果还是不行。。。用chrome抓包看了半天感觉没有影响简单页面抓取的机制(其他保密机制应该还是有的,打开一个页面时,向不同服务器递交了很多请求,还设定了一些不知道干啥的cookies),最后用urllib伪造请求发现页面都能抓取回来。于是上网查了一下robot.txt是什么,发现原来有个robot协议,终于恍然大悟:
我们观察scrapy抓包时的输出就能发现,在请求我们设定的url之前,它会先向服务器根目录请求一个txt文件:
2016-06-10 18:16:26 [scrapy] DEBUG: Crawled (200)
相关文章推荐
- 爬虫出现Forbidden by robots.txt
- 【Scrapy】scrapy爬虫出现Forbidden by robots.txt
- 爬虫出现Forbidden by robots.txt
- scrapy爬虫出现‘Forbidden by robots.txt’错误
- scrapy爬虫出现Forbidden by robots.txt
- scrapy爬虫出现Forbidden by robots.txt
- Scrapy 爬虫日志中出现Forbidden by robots.txt
- [scrapy] DEBUG: Forbidden by robots.txt
- Mac MAMP 安装 tp5 出现 apache Directory index forbidden by Options directive 错误解决方法
- robots.txt里禁止的页面出现在搜索结果中
- 安装samba,出现perl(Convert::ASN1) is needed by samba……问题的解决方法
- 网站所用的robots.txt基本使用方法
- php错误:访问网页出现Forbidden you donnot have permission to access … on this server
- zencart robots.txt怎么写?(方法)
- 解决mac环境下mysql出现only_full_group_by的错误
- robots.txt作用和写法
- 访问BDC时出现"Access denied by Business Data Connectivity”
- Web--robots.txt协议
- python 将txt文档导入excel中出现的unicode error问题
- Java读取UTF-8格式txt文件第一行出现乱码——问号“?”及解决;Java读带有BOM的UTF-8文件乱码原因及解决方法