python requests 和正则表达式提取贴吧图片
2017-09-13 15:17
579 查看
通过requests的get方法得到对应url 的页面,然后直接使用re 的正则表达式来查找对应的图片的地址,最后将图片保存在本地。
这个可以算的上是自己的第一个python 爬虫了吧。。。。
新手,有很多不好的地方,欢迎交流
这个可以算的上是自己的第一个python 爬虫了吧。。。。
新手,有很多不好的地方,欢迎交流
import requests import sys import io import re import os url = "http://c.tieba.baidu.com/p/5287949986" html=requests.get(url) url_list = re.findall(r"http://imgsrc.baidu.com/forum/.*?\.jpg",html.text) root = "E://pics//" file=open(root+"demo.txt","a") for url in url_list: file.write(url+"\n") file.close() ''' for i in url_list: with open(root+"demo.txt","w")as p: p.write(i) p.close() ''' print("url_list download success!") num=0 failed_count=0 for url in url_list: path = root+str(num+1)+".jpg" with open(path,"wb") as f: try: res=requests.get(url,timeout=30) f.write(res.content) f.close() num+=1 except: print("failed") failed_count+=1 print("download compelete!\n"+"successful{}\n failed {}".format(num,failed_count))
相关文章推荐
- Python爬虫urllib2笔记(三)之使用正则表达式提取百度贴吧网页中的楼主发的图片
- [Python]_[使用正则表达式提取迅雷界面配置文件XLUE的图片]
- [Python]_[使用正则表达式提取迅雷界面配置文件XLUE的图片]
- 正则表达式提取图片地址
- 如何用Python Pandas以及正则表达式提取地址中的省份
- python学习笔记-正则表达式提取指定关键字
- Python 网络爬虫-正则表达式、BeautifulSoup、lxml三种提取方法
- Python基础学习——正则表达式与第一个爬虫(requests)
- 正则表达式提取网址、标题、图片等一例(.Net Asp Javascript/Js)的实现
- C#正则表达式通过HTML提取网页中的图片src
- Python 正则表达式提取URL中的Host
- 用python正则表达式提取字符串
- C#通过正则表达式实现提取网页中的图片
- Python 正则表达式提取URL中的Fragment
- python利用正则表达式提取字符串
- Js正则表达式提取图片地址
- 基于Python正则表达式提取搜索结果中的站点地址
- PHP提取字符串中的图片地址[正则表达式]
- 正则表达式 获取字符串内提取图片URL字符串