网络爬虫学习一
2016-03-13 17:49
555 查看
一. 根据url抓取页面源码:
二. 从抓取的网页中下载图片
def getImg(html):
reg = r'src="(.+?\.jpg)"'
#reg=r'src'
pat = re.compile(reg)
imgList = re.findall(pat,html)
x=1
for imgurl in imgList:
urllib.urlretrieve(imgurl,'%s.jpg' % x)
x+=1
三. 抓取前模拟登陆
相关知识:
http消息头 :理解HTTP消息头
import re import urllib def getHtml(url): agent='' page=urllib.urlopen(url) html = page.read() return html try: html = getHtml(url='https://www.zhihu.com/question/20899988') #html.encoding = 'utf-8' except Exception: print 'getHtml fail' print html
二. 从抓取的网页中下载图片
def getImg(html):
reg = r'src="(.+?\.jpg)"'
#reg=r'src'
pat = re.compile(reg)
imgList = re.findall(pat,html)
x=1
for imgurl in imgList:
urllib.urlretrieve(imgurl,'%s.jpg' % x)
x+=1
三. 抓取前模拟登陆
相关知识:
http消息头 :理解HTTP消息头
相关文章推荐
- 初识HTTP消息头
- 网络流学习笔记
- TCP三次握手建立连接
- DNS使用的是TCP协议还是UDP协议(转)
- 【02】AJAX XMLHttpRequest对象
- 关于HTTP请求的常见状态码详解
- thinkpadt420 Advanced-N 6205 win10系统找不到部分无线网络问题
- web服务交互中HTTP数据内容GZIP,ZLIB格式压缩与解压缩封装(共享)
- 转自面试感悟http://www.cnblogs.com/xrq730/p/5260294.html
- Swift-网络、本地数据解析
- TCP提供可靠传输的工作原理和实现过程
- c 访问http 2016-3-13
- Qt-----实现Tcp通信
- LInux Tcp 延迟确认问题
- TCP协议详解
- TCP中的定时器
- tcpdump用法
- TCP时延问题
- http://zh.visualgo.net/mst.html
- 太原网络营销师揭秘每个老板最头疼的百度竞价(SEM)如何提供转化率?