Python:爬虫使用代理防封IP:HTTP Error 403: Forbidden
2017-07-16 00:00
906 查看
在写爬虫爬取数据的时候,经常遇到如下的提示,
之前已经写了一个使用多个
直接上代码吧:
根据具体在爬取时光网,豆瓣的电影时,的使用经验:说明一下
- 免费的代理很不太稳定,如果大量长时间爬取,还是稍微花点小钱吧,很便宜。
- 找那些免费代理IP, 使用那些高匿的代理。推荐这个网站
HTTP Error 403: Forbidden
之前已经写了一个使用多个
headers的笔记,但是这种还是只有一个IP 只不过是伪装为不同的浏览器而已,所以想做到更近一步防止被封,还是需要及时更换不同IP,下面记录一下
python使用代理爬取的过程。PS: 爬虫尽量不要太频繁的说。。。
直接上代码吧:
proxy_list=[#这是我当时用的代理IP,请更新能用的IP '202.106.169.142:80', '220.181.35.109:8080', '124.65.163.10:8080', '117.79.131.109:8080', '58.30.233.200:8080', '115.182.92.87:8080', '210.75.240.62:3128', '211.71.20.246:3128', '115.182.83.38:8080', '121.69.8.234:8080', ] #接着在你使用的到urllib2的代码中,绑定某个IP,如下: proxy = random.choice(proxy_list) urlhandle = urllib2.ProxyHandler({'http':proxy}) opener = urllib2.build_opener(urlhandle) urllib2.install_opener(opener) #正常使用urllib req = urllib2.Request(listurl,headers=headers) content = urllib2.urlopen(req).read()
根据具体在爬取时光网,豆瓣的电影时,的使用经验:说明一下
- 免费的代理很不太稳定,如果大量长时间爬取,还是稍微花点小钱吧,很便宜。
- 找那些免费代理IP, 使用那些高匿的代理。推荐这个网站
相关文章推荐
- Python:爬虫使用代理防封IP:HTTP Error 403: Forbidden
- Python 爬虫入门(二)—— IP代理使用
- Python 爬虫入门—— IP代理使用
- Python 爬虫入门(二)—— IP代理使用 - 不剃头的一休哥 - 博客园
- 鱼c笔记——Python爬虫(三):使用User Agent和代理IP隐藏身份
- Python3网络爬虫之使用User Agent和代理IP隐藏身份
- Python 爬虫入门(二)—— IP代理使用
- python3实现网络爬虫(7)-- 使用ip代理抓取网页
- Python网页爬虫提示urllib2.HTTPError: HTTP Error 403: Forbidden 错误
- 【Python3.6爬虫学习记录】(十一)使用代理IP及用多线程测试IP可用性--刷访问量
- [Python爬虫] 使用urllib2库检测代理ip是否可用,并使用代理提交GET、POST请求
- Python网页爬虫提示urllib2.HTTPError: HTTP Error 403: Forbidden 错误
- 使用python为爬虫获取免费代理ip
- Python 爬虫之使用代理ip
- 爬虫使用代理防封IP:HTTP Error 403: Forbidden
- Python3 爬虫使用User Agent和代理IP隐藏身份
- python爬虫之Scrapy 使用代理配置
- Python爬虫抓取代理IP并检验可用性
- python爬虫之Scrapy 使用代理配置
- [python]新手写爬虫v2.5(使用代理的异步爬虫)