您的位置：首页 > 编程语言 > Python开发

python爬虫实战（一）--爬取知乎话题图片

2017-09-19 20:53 561 查看

前言

在学习了python基础之后，该尝试用python做一些有趣的事情了–爬虫。

知识准备：

1.python基础知识

2.urllib库使用

3.http基本知识

4.html/js基本知识。

环境准备：

1.linux

2.python3

话不多说，开始

爬取目标

本次爬取的目标是知乎话题下的图片。

分析

以知乎话题你见过哪些谜之笑点的图片为例。

用浏览器打开该链接。鼠标右键-查看源代码。可以看到，图片的url在img标签中，那么在爬取到该网页内容之后，可以使用正则表达式，获取图片的url，再根据url将图片下载下来，便大功告成了。

代码

#!/usr/bin/python3
#coding=utf-8
import urllib.request as request
import urllib.parse as parse
import string
import sys
import re
import os
import urllib.error as error

'''
获取url中的图片
url：链接地址
dirpath：保存路径
'''
def getUrlImage(url,dirpath):

dldNum=0
data = request.urlopen(url).read()

if not os.path.isdir(dirpath):
os.makedirs(dirpath)
page_data = data.decode('gbk','ignore')
#获取img标签数据
page_image = re.compile('<img src=\"(.+?)\"')
for image in page_image.findall(page_data):
#匹配数据中的图片
pattern = re.compile(r'^https://.*.(jpg|png|gif|jpeg)$')
if  pattern.match(image):
print (image)
try:
extension =  GetFileNameAndExt(image)
image_data = request.urlopen(image).read()
image_path = dirpath+'/'+str(dldNum)+extension
dldNum += 1
print(image_path)
with open(image_path, 'wb') as image_file:
image_file.write(image_data)
image_file.close()
except error.URLError as e:
print('Download failed')
'''
获取文件名中的扩展名
'''
def GetFileNameAndExt(filename):
(filepath,tempfilename) = os.path.split(filename);
(shotname,extension) = os.path.splitext(tempfilename);
return extension
'''
入口函数
带两个参数

'''
if __name__ == "__main__":
if(len(sys.argv) < 2):
print("usage:./download_spider.py url  savePath")
else:
print("the url is "+str(sys.argv[1]))
print("the save path is "+str(sys.argv[2]))
url = sys.argv[1]
savePath = sys.argv[2]
getUrlImage(url,savePath)

运行

有两个参数，第一个参数是url，即话题的链接，第二个参数是所要保存图片的路径。

在linux下运行

./getZhiHuImage.py  https://www.zhihu.com/question/41432739 /home/spider/

将会在目的目录下发现下载好的图片。39 /home/spider/

“`

将会在目的目录下发现下载好的图片。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： python 爬虫

相关文章推荐

新的分享

章节导航