Scrapy系列教程(6)------如何避免被禁
2014-11-20 11:12
267 查看
避免被禁止(ban)
有些网站实现了特定的机制,以一定规则来避免被爬虫爬取。 与这些规则打交道并不容易,需要技巧,有时候也需要些特别的基础。 如果有疑问请考虑联系 商业支持 。下面是些处理这些站点的建议(tips):
使用user agent池,轮流选择之一来作为user agent。池中包含常见的浏览器的user agent(google一下一大堆)
禁止cookies(参考 COOKIES_ENABLED),有些站点会使用cookies来发现爬虫的轨迹。
设置下载延迟(2或更高)。参考 DOWNLOAD_DELAY 设置。
如果可行,使用 Google cache 来爬取数据,而不是直接访问站点。
使用IP池。例如免费的 Tor项目 或付费服务(ProxyMesh)。
使用高度分布式的下载器(downloader)来绕过禁止(ban),您就只需要专注分析处理页面。这样的例子有: Crawlera
相关文章推荐
- Scrapy系列教程(6)------怎样避免被禁
- [导入]如何使用Thinkphp快速开发 系列教程(1)
- 自动化测试 - RFT系列教程3: RFT是如何识别控件的(一) 抓取控件
- Selenium-webdriver系列教程(3)————如何执行一段js脚本
- Selenium-webdriver系列教程(9)————如何操作select下拉框
- Selenium-webdriver系列教程(7)————如何处理alert和confirm
- MachII HowTo系列教程的译文: Mach-II 如何开发Listener
- Exchange server 2010系列教程之四 如何卸载exchange server
- [转]Ultra Fractal教程系列25——如何使用图层08——添加控制点
- [转]Ultra Fractal教程系列24——如何使用图层07——渐变编辑器中的透明度
- Selenium-webdriver系列教程(13)————如何处理table
- 自动化测试 - RFT系列教程4: RFT是如何识别控件的(二) 对象库与脚本
- ASP.NET MVC3 系列教程 - 如何使项目Debug进MVC3源代码
- Exchange server 2010系列教程之四 如何卸载exchange server 2010
- Ultra Fractal教程系列21——如何使用图层04——学习关于图层的不透明度
- [Python系列实用教程]一、Python如何使用urllib2获取网络资源
- 黄聪:如何使用CodeSmith批量生成代码(原创系列教程)
- [转]Ultra Fractal教程系列19——如何使用图层02——给新建的图层着色
- Selenium-webdriver系列教程(5)————如何定位frame中的元素
- Selenium-webdriver系列教程(14)————如何在启动firefox时加载扩展