您的位置:首页 > 编程语言 > Python开发

使用Python自动获取可用代理列表

2015-06-11 22:08 736 查看

         今天闲来无事,随便写的一个从代理发布网站上提取可用代理列表的脚本。

        运行后,可以获取http://cn-proxy.com/发布的可用代理ip和端口的列表。

        运行效果如下:



        源代码如下,请指教:

# -*- coding: utf-8 -*-
# Python:      2.7.8
# Platform:    Windows
# Author:      wucl
# Program:     从代理网站获取可用代理
# History:     2015.6.11

import urllib2, re
from bs4 import BeautifulSoup

def get_proxies(url):
"""
从代理网站获取可用代理ip地址列表并返回
"""
resp = urllib2.urlopen(url)
html = resp.read()
soup = BeautifulSoup(html)
contents = soup.find_all('tr')
regex = re.compile('\d+')
proxies = []
for each in contents:
sock = each.find_all('td')
if sock:
ip = sock[0].text
port = sock[1].text
if re.findall(regex, ip):
proxy = '%s:%s' %(ip, port)
proxies.append(proxy)
return proxies

if __name__ == '__main__':
url = 'http://cn-proxy.com/'
proxies = get_proxies(url)
print proxies
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息