您的位置:首页 > 编程语言 > Python开发

怎样用Python3 写一个爬图片的程序?

2017-09-01 20:12 337 查看

怎样用Python3 写一个爬图片的程序?

参考网页:xiaowanggedege的专栏

缘起于一个小伙伴,在网上发帖求助一段代码,

功能是实现从百度贴吧,爬一个叫杉本有美的日本国际友人的图片。

(声明:本人之前确实不认识这个可爱美丽的女孩子)

浏览了参考网页的资料,发现代码是python2的版本,现修改如下:

import urllib.request
import re

def get_html(url):
page = urllib.request.urlopen(url)
html = page.read()
return html

def get_img(html):
reg = r'src="(.*?\.jpg)" size='
imgre = re.compile(reg)
html = html.decode('utf-8')
imglist = re.findall(imgre, html)
i = 0
for imgurl in imglist:
urllib.request.urlretrieve(imgurl, '%s.jpg' % i)
i += 1

html = get_html('http://tieba.baidu.com/p/4907713304')
print(get_img(html))


urllib2是Python自带的模块,在python3.x中被改为urllib.request

python3.0 中findall模块现在的参数更改了,现在读取的是bytes-like的,但参数要求是chart-like的,

所以加上一段代码
html = html.decode('utf-8')


细心的朋友可以发现,我的代码和参考资料代码里爬的网页不一样,参考资料里的是http://tieba.baidu.com/p/2166231880

查看网页源码会发现细微的不同,





根据二者的不同,修改了此条语句:

reg = r'src="(.*?\.jpg)" size='
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: