您的位置:首页 > 编程语言 > Python开发

python requests 和正则表达式提取贴吧图片

2017-09-13 15:17 579 查看
通过requests的get方法得到对应url 的页面,然后直接使用re 的正则表达式来查找对应的图片的地址,最后将图片保存在本地。

这个可以算的上是自己的第一个python 爬虫了吧。。。。

新手,有很多不好的地方,欢迎交流

import requests
import sys
import io
import re
import os

url = "http://c.tieba.baidu.com/p/5287949986"

html=requests.get(url)
url_list = re.findall(r"http://imgsrc.baidu.com/forum/.*?\.jpg",html.text)

root = "E://pics//"
file=open(root+"demo.txt","a")
for url in url_list:
file.write(url+"\n")
file.close()
'''
for i in url_list:
with open(root+"demo.txt","w")as p:
p.write(i)
p.close()
'''
print("url_list download success!")
num=0
failed_count=0
for url in url_list:
path = root+str(num+1)+".jpg"
with open(path,"wb") as f:
try:
res=requests.get(url,timeout=30)
f.write(res.content)
f.close()
num+=1
except:
print("failed")
failed_count+=1

print("download compelete!\n"+"successful{}\n failed {}".format(num,failed_count))
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: