您的位置:首页 > 理论基础 > 计算机网络

网络爬虫学习一

2016-03-13 17:49 555 查看
一. 根据url抓取页面源码:

import re
import urllib

def getHtml(url):
agent=''
page=urllib.urlopen(url)
html = page.read()
return html

try:
html = getHtml(url='https://www.zhihu.com/question/20899988')
#html.encoding = 'utf-8'
except Exception:
print 'getHtml fail'

print html


二. 从抓取的网页中下载图片

def getImg(html):
reg = r'src="(.+?\.jpg)"'
#reg=r'src'
pat = re.compile(reg)
imgList = re.findall(pat,html)
x=1
for imgurl in imgList:
urllib.urlretrieve(imgurl,'%s.jpg' % x)
x+=1

三. 抓取前模拟登陆

相关知识:

     http消息头 :理解HTTP消息头

    

       
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: