爬虫学习:一个管用的贴吧妹子图下载器
2016-03-01 21:53
246 查看
import urllib.request import re def open_url(url): req=urllib.request.Request(url) req.add_header('User-Agent','Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6') page=urllib.request.urlopen(req) html=page.read().decode('utf-8') return html def get_img(html): p=r'<img class="BDE_Image" src="([^"]+\.jpg)"' #加小括号效果很好,会单独返回子组 imglist=re.findall(p,html) for each in imglist: filename=each.split("/")[-1] urllib.request.urlretrieve(each,filename,None) if __name__=='__main__': url="http://tieba.baidu.com/p/2128182108" get_img(open_url(url))
相关文章推荐
- Codeforces 633D Fibonacci-ish(暴力)
- MongoDB的安装(Linux平台)
- 2.OC蓝牙功能
- ping命令中请求超时是什么意思?
- 大脑记忆系统研究取得重大进展:或被用于开发新的芯片和操作系统
- 大脑记忆系统研究取得重大进展:或被用于开发新的芯片和操作系统
- Android第一周实习笔记
- nodejs 自动重启服务 supervisor
- MVC4 AspNet MVC下的Ajax / 使用JQuery做相关的Ajax请求
- 大脑记忆系统研究取得重大进展:或被用于开发新的芯片和操作系统
- Chapter 6、字符串(二)(1st,Mar.)
- 解决:ERROR ITMS-90023: "Missing required icon file. The bundle does not contain an app icon for iPad o
- Cocos2d-x之CC_CALLBACK详解
- android 线程优先级设置方法
- 高富帅
- 自定义View之TitleBar
- 异常java.sql.SQLException: Value '0000-00-00 00:00:00' can not be represented as java.sql.Timestamp
- JavaScript高级程序设计(第3版)第八章读书笔记
- 合并两个有序数组(未整理)
- 最长回文子串