python获取ip代理列表爬虫
2016-02-06 17:33
1026 查看
最近练习写爬虫,本来爬几张mm图做测试,可是爬到几十张的时候就会返回403错误,这是被网站服务器发现了,把我给屏蔽了。
因此需要使用代理IP。为了方便以后使用,我打算先写一个自动爬取ip代理的爬虫,正所谓,磨刀不误砍柴工,读完高中再打工!
先看看运行结果:
![](https://oscdn.geek-share.com/Uploads/Images/Content/201912/20/e5c9bae5d36d4997a63a13fd459da312.jpg)
函数返回一个列表
废话少说,放码出去:
这个玩意还是挺好使的。
因此需要使用代理IP。为了方便以后使用,我打算先写一个自动爬取ip代理的爬虫,正所谓,磨刀不误砍柴工,读完高中再打工!
先看看运行结果:
![](https://oscdn.geek-share.com/Uploads/Images/Content/201912/20/e5c9bae5d36d4997a63a13fd459da312.jpg)
函数返回一个列表
废话少说,放码出去:
#-*- coding: utf-8 -*- import urllib import urllib2 import re import time # obtain some ip and port for spider from a site,xicidaili.com. class ObtainProxy: def __init__(self,region = '国内普通'): self.region = {'国内普通':'nt/','国内高匿':'nn/','国外普通':'wt/','国外高匿':'wn/','SOCKS':'qq/'} self.url = 'http://www.xicidaili.com/' + self.region[region] self.header = {} self.header['User-Agent'] = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36' def get_prpxy(self): req = urllib2.Request(self.url,headers = self.header) resp = urllib2.urlopen(req) content = resp.read() self.get_ip = re.findall(r'(\d+\.\d+\.\d+\.\d+)</td>\s*<td>(\d+)</td>',content) self.pro_list = [] for each in self.get_ip: a_info = each[0] + ':' + each[1] self.pro_list.append(a_info) return self.pro_list def save_pro_info(self): with open('proxy','w') as f: for each in self.get_ip: a_info = each[0] + ':' + each[1] + '\n' f.writelines(a_info) if __name__ == '__main__': proxy = ObtainProxy() print proxy.get_prpxy()
这个玩意还是挺好使的。
相关文章推荐
- Python爬虫(单线程爬虫(三))
- Python模拟登录验证码(代码简单)
- Woody的Python学习笔记4
- Python上传package到Pypi(代码简单)
- Python fp
- Python爬虫学习(单线程爬虫(二))
- Beginning Python Chapter 3 Notes
- python中快速判断一个对象是否是字符串
- Python爬虫学习(单线程爬虫(一))
- Python 值传递和引用传递
- ironPython 发现不了第三方库处理办法
- 20来行的Python拼写检查器
- Python之二维数组N*N顺时针旋转90度
- Python3.x和Python2.x的区别,以及python2代码转python3
- Beginning Python Chapter9
- Python爬取一个网页的图片
- 【Python 笔记】神奇的匿名函数
- 机器学习基石笔记-感知机
- python的正则表达式 re
- Python上传package到Pypi(代码简单)