您的位置：首页 > 其它

Scrapy系列教程（6）------怎样避免被禁

2018-02-22 19:34 232 查看

避免被禁止(ban)

有些网站实现了特定的机制，以一定规则来避免被爬虫爬取。

与这些规则打交道并不easy，须要技巧，有时候也须要些特别的基础。假设有疑问请考虑联系商业支持。

以下是些处理这些网站的建议(tips):

使用user agent池。轮流选择之中的一个来作为user agent。

池中包括常见的浏览器的user agent(google一下一大堆)
禁止cookies(參考 COOKIES_ENABLED)，有些网站会使用cookies来发现爬虫的轨迹。

设置下载延迟(2或更高)。

參考 DOWNLOAD_DELAY 设置。
假设可行，使用 Google cache 来爬取数据，而不是直接訪问网站。
使用IP池。比如免费的 Tor项目或付费服务(ProxyMesh)。
使用高度分布式的下载器(downloader)来绕过禁止(ban)，您就仅仅须要专注分析处理页面。这种样例有: Crawlera

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航