您的位置：首页 > 理论基础 > 计算机网络

网络爬虫学习一

2016-03-13 17:49 555 查看

一. 根据url抓取页面源码：

import re
import urllib

def getHtml(url):
agent=''
page=urllib.urlopen(url)
html = page.read()
return html

try:
html = getHtml(url='https://www.zhihu.com/question/20899988')
#html.encoding = 'utf-8'
except Exception:
print 'getHtml fail'

print html

二. 从抓取的网页中下载图片

def getImg(html):
reg = r'src="(.+?\.jpg)"'
#reg=r'src'
pat = re.compile(reg)
imgList = re.findall(pat,html)
x=1
for imgurl in imgList:
urllib.urlretrieve(imgurl,'%s.jpg' % x)
x+=1

三. 抓取前模拟登陆

相关知识：

     http消息头：理解HTTP消息头

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

初识HTTP消息头
网络流学习笔记
TCP三次握手建立连接
DNS使用的是TCP协议还是UDP协议（转）
【02】AJAX XMLHttpRequest对象
关于HTTP请求的常见状态码详解
thinkpadt420 Advanced-N 6205 win10系统找不到部分无线网络问题
web服务交互中HTTP数据内容GZIP,ZLIB格式压缩与解压缩封装(共享)
转自面试感悟http://www.cnblogs.com/xrq730/p/5260294.html
Swift-网络、本地数据解析
TCP提供可靠传输的工作原理和实现过程
c 访问http 2016-3-13
Qt-----实现Tcp通信
LInux Tcp 延迟确认问题
TCP协议详解
TCP中的定时器
tcpdump用法
TCP时延问题
http://zh.visualgo.net/mst.html
太原网络营销师揭秘每个老板最头疼的百度竞价（SEM）如何提供转化率？

新的分享

【Java面试】TCP协议为什么要设计三次握手？
深度学习与CV教程(11) | 循环神经网络及视觉应用
又一起 BGP 劫持事件，影响全球 200 多家云服务和 CDN 提供商
深度学习与CV教程(7) | 神经网络训练技巧 (下)
网络协议之:haproxy的Proxy Protocol代理协议
Nginx实现https、重定向https
NLP教程(9) - 句法分析与树形递归神经网络
艾瑞咨询：2020年中国疫情时期网络长视频内容价值回顾及探索
每天一个 HTTP 状态码 206
每天一个 HTTP 状态码 205
每天一个 HTTP 状态码 204
每天一个 HTTP 状态码 203

章节导航