Scrapy系列教程(6)------怎样避免被禁
2018-02-22 19:34
232 查看
避免被禁止(ban)
有些网站实现了特定的机制,以一定规则来避免被爬虫爬取。与这些规则打交道并不easy,须要技巧,有时候也须要些特别的基础。 假设有疑问请考虑联系 商业支持 。
以下是些处理这些网站的建议(tips):
使用user agent池。轮流选择之中的一个来作为user agent。
池中包括常见的浏览器的user agent(google一下一大堆)
禁止cookies(參考 COOKIES_ENABLED),有些网站会使用cookies来发现爬虫的轨迹。
设置下载延迟(2或更高)。
參考 DOWNLOAD_DELAY 设置。
假设可行,使用 Google cache 来爬取数据,而不是直接訪问网站。
使用IP池。比如免费的 Tor项目 或付费服务(ProxyMesh)。
使用高度分布式的下载器(downloader)来绕过禁止(ban),您就仅仅须要专注分析处理页面。这种样例有: Crawlera
相关文章推荐
- Scrapy系列教程(6)------如何避免被禁
- Scrapy系列教程(1)------命令行工具
- python网络爬虫系列教程——Scrapy框架应用全解
- [软件架构师系列教程-2]怎样成为优秀的软件模型设计者?
- 原型图工具mockplus系列教程:怎样使用图片裁切功能?
- Scrapy系列教程(2)------Item(结构化数据存储结构)
- Scrapy网络爬虫系列教程(二)| 提取网页上的内容
- Scrapy爬虫入门系列2 示例教程
- Scrapy系列教程(3)------Spider(爬虫核心,定义链接关系和网页信息抽取)
- Scrapy爬虫入门系列2 示例教程
- Scrapy系列教程(3)------Spider(爬虫核心,定义链接关系和网页信息抽取)
- Scrapy系列教程(2)------Item(结构化数据存储结构)
- Scrapy系列教程(1)------命令行工具
- Windows 8实例教程系列 - 数据绑定高级实例 推荐
- 一网打尽Android-UI系列教程
- PowerDesigner教程系列(五)概念数据模型
- MyBatis系列教程(三)--实现数据的增删改查(CRUD)
- 40款非常棒的 jQuery 插件和制作教程(系列一)
- Spring Boot系列教程七:Spring boot集成MyBatis
- mongodb3.6系列教程4--插入文档