python爬虫
2013-12-23 14:40
218 查看
#!/usr/bin/python import re #导入正则模块 import urllib #导入url模块 def getHtml(url): #定义获取网页函数 page = urllib.urlopen(url) #打开页面 html = page.read() #读取页面 return html #返回页面 def getImg(html): #定义获取图片函数 reg = r'src="(.*?\.jpg)" width' #定义获取的图片匹配 imgre = re.compile(reg) #编译定义的正则 imglist = re.findall(imgre,html) #查找页面中的图片 x = 0 for imgurl in imglist: #循环获取图片的名字 urllib.urlretrieve(imgurl,'%s.jpg' % x) #传递参数给图片赋名 x+=1 html = getHtml("http://tieba.baidu.com/p/1948539548") #定义页面地址 getImg(html) #运行函数获取图片
本文出自 “charlie_cen” 博客,请务必保留此出处http://charlie928.blog.51cto.com/3741218/1344018
相关文章推荐
- Python爬虫1
- Python爬虫利器五之Selenium的用法
- Python爬虫(入门+进阶)学习笔记 1-1 什么是爬虫?
- python爬虫基础-Cookies
- Python 爬虫 正则抽取网页数据和Scrapy简单使用
- Python开发爬虫常用库
- Python 开发简单爬虫 学习笔记1
- Python爬虫 --登录页面除了Cookie,另外一种进行登录的方式
- 利用python爬虫抓取OJ上做题信息(终结版)
- python_轻量级爬虫开发4
- Python2 爬虫(九) -- Scrapy & BeautifulSoup之再爬CSDN博文
- python3爬虫post请求
- [Python]网络爬虫(11):亮剑!爬虫框架小抓抓Scrapy闪亮登场!
- python爬虫(登录豆瓣并修改签名)
- [Python]python爬虫简单试用
- mac 上python简易爬虫
- Python 爬虫实战2 百度贴吧帖子
- 【爬虫学习4】Python爬取动态页面思路(二)
- Python爬虫入门
- python爬虫之反爬虫技术