您的位置:首页 > 编程语言 > Python开发

python爬虫实战(一)--爬取知乎话题图片

2017-09-19 20:53 561 查看
原文链接python爬虫实战(一)–爬取知乎话题图片

前言

在学习了python基础之后,该尝试用python做一些有趣的事情了–爬虫。

知识准备:

1.python基础知识

2.urllib库使用

3.http基本知识

4.html/js基本知识。

环境准备:

1.linux

2.python3

话不多说,开始

爬取目标

本次爬取的目标是知乎话题下的图片。

分析

以知乎话题你见过哪些谜之笑点的图片为例。

用浏览器打开该链接。鼠标右键-查看源代码。可以看到,图片的url在img标签中,那么在爬取到该网页内容之后,可以使用正则表达式,获取图片的url,再根据url将图片下载下来,便大功告成了。

代码

#!/usr/bin/python3
#coding=utf-8
import urllib.request as request
import urllib.parse as parse
import string
import sys
import re
import os
import urllib.error as error

'''
获取url中的图片
url:链接地址
dirpath:保存路径
'''
def getUrlImage(url,dirpath):

dldNum=0
data = request.urlopen(url).read()

if not os.path.isdir(dirpath):
os.makedirs(dirpath)
page_data = data.decode('gbk','ignore')
#获取img标签数据
page_image = re.compile('<img src=\"(.+?)\"')
for image in page_image.findall(page_data):
#匹配数据中的图片
pattern = re.compile(r'^https://.*.(jpg|png|gif|jpeg)$')
if  pattern.match(image):
print (image)
try:
extension =  GetFileNameAndExt(image)
image_data = request.urlopen(image).read()
image_path = dirpath+'/'+str(dldNum)+extension
dldNum += 1
print(image_path)
with open(image_path, 'wb') as image_file:
image_file.write(image_data)
image_file.close()
except error.URLError as e:
print('Download failed')
'''
获取文件名中的扩展名
'''
def GetFileNameAndExt(filename):
(filepath,tempfilename) = os.path.split(filename);
(shotname,extension) = os.path.splitext(tempfilename);
return extension
'''
入口函数
带两个参数

'''
if __name__ == "__main__":
if(len(sys.argv) < 2):
print("usage:./download_spider.py url  savePath")
else:
print("the url is "+str(sys.argv[1]))
print("the save path is "+str(sys.argv[2]))
url = sys.argv[1]
savePath = sys.argv[2]
getUrlImage(url,savePath)


运行

有两个参数,第一个参数是url,即话题的链接,第二个参数是所要保存图片的路径。

在linux下运行

./getZhiHuImage.py  https://www.zhihu.com/question/41432739 /home/spider/


将会在目的目录下发现下载好的图片。39 /home/spider/

“`

将会在目的目录下发现下载好的图片。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  python 爬虫