python下载文件(图片)源码,包含爬网内容(爬url),可保存cookie
2013-07-19 18:28
656 查看
#coding=utf-8
'''
Created on 2013-7-17
@author: zinan.zhang
'''
import re
import time
import httplib2
import urllib
from bs4 import BeautifulSoup
#路径
savePath = 'F://TDDOWNLOAD//aNO.4//'
#获取url
def url_xunhuan(url,list):
return url + list
#下载图片的时候
time.sleep(0.5)#先sleep,再读取数据
"""根据url下载文件,文件名自动从url获取"""
def gDownload(url,savePath):
#参数检查,现忽略
fileName = gGetFileName(url)
#fileName =gRandFilename('jpg')
gDownloadWithFilename(url,savePath,fileName)
"""根据url获取文件名"""
def gGetFileName(url):
if url==None: return None
if url=="" : return ""
arr=url.split("/")
return arr[len(arr)-1]
"""根据url下载文件,文件名参数指定"""
def gDownloadWithFilename(url,savePath,file):
#参数检查,现忽略
try:
urlopen=urllib.URLopener()
fp = urlopen.open(url)
data = fp.read()
fp.close()
file=open(savePath + file,'w+b')
file.write(data)
print "下载成功:"+ url
file.close()
except IOError:
print "下载失败:"+ url
#初始化页面,提取必要信息
def getPage(url):
userAgent = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)'
headers = {
'User-Agent': userAgent,
'Accept-Language': 'zh-CN,zh;q=0.8',
'Accept': 'text/css,*/*;q=0.1',
}
http = httplib2.Http(".cache")
_, content = http.request(url, 'GET',headers=headers)
return content
#循环下载列表固定的 ---就是wallpaper,enterdesk等网站
def xuanhuan_down_list():
list=[]
url = 'http://tupian.enterdesk.com/2013/mxy/0311/4/'
temp=10
for i in range(temp):
list.append(str(i)+'.jpg')
for i in range(temp):
url_list = url_xunhuan(url,list[i])
gDownload(url_list,savePath)
time.sleep(0.2)
#爬网获取url
def spider_url(url):
page = getPage(url)
dom = BeautifulSoup(page)
srcs = [x['src'] for x in dom.findAll('img')]
#成功获取url
return srcs[0]
#循环下载列表随机的 ---就是ZOL桌面壁纸下载
def xuanhuan_down_suiji():
try:
temp=25
i=88
j=i
while (i <= j+temp):
#http://desk.zol.com.cn/showpic/1920x1200_30688_33.html
url = 'http://desk.zol.com.cn/showpic/1920x1200_12'+str(i)+'_37.html'
src_url = spider_url(url)
gDownload(src_url,savePath)
time.sleep(0.1)
i+=1
except IOError:
print "url获取失败!"
if __name__ == "__main__":
#gDownload(url,savePath)
'''
#批量下载序号固定的图片
xuanhuan_down_list()
'''
'''
#批量下载隐藏jpg路径的文件
xuanhuan_down_suiji()
'''
#批量下载文件
print '下载完成!'
'''
Created on 2013-7-17
@author: zinan.zhang
'''
import re
import time
import httplib2
import urllib
from bs4 import BeautifulSoup
#路径
savePath = 'F://TDDOWNLOAD//aNO.4//'
#获取url
def url_xunhuan(url,list):
return url + list
#下载图片的时候
time.sleep(0.5)#先sleep,再读取数据
"""根据url下载文件,文件名自动从url获取"""
def gDownload(url,savePath):
#参数检查,现忽略
fileName = gGetFileName(url)
#fileName =gRandFilename('jpg')
gDownloadWithFilename(url,savePath,fileName)
"""根据url获取文件名"""
def gGetFileName(url):
if url==None: return None
if url=="" : return ""
arr=url.split("/")
return arr[len(arr)-1]
"""根据url下载文件,文件名参数指定"""
def gDownloadWithFilename(url,savePath,file):
#参数检查,现忽略
try:
urlopen=urllib.URLopener()
fp = urlopen.open(url)
data = fp.read()
fp.close()
file=open(savePath + file,'w+b')
file.write(data)
print "下载成功:"+ url
file.close()
except IOError:
print "下载失败:"+ url
#初始化页面,提取必要信息
def getPage(url):
userAgent = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)'
headers = {
'User-Agent': userAgent,
'Accept-Language': 'zh-CN,zh;q=0.8',
'Accept': 'text/css,*/*;q=0.1',
}
http = httplib2.Http(".cache")
_, content = http.request(url, 'GET',headers=headers)
return content
#循环下载列表固定的 ---就是wallpaper,enterdesk等网站
def xuanhuan_down_list():
list=[]
url = 'http://tupian.enterdesk.com/2013/mxy/0311/4/'
temp=10
for i in range(temp):
list.append(str(i)+'.jpg')
for i in range(temp):
url_list = url_xunhuan(url,list[i])
gDownload(url_list,savePath)
time.sleep(0.2)
#爬网获取url
def spider_url(url):
page = getPage(url)
dom = BeautifulSoup(page)
srcs = [x['src'] for x in dom.findAll('img')]
#成功获取url
return srcs[0]
#循环下载列表随机的 ---就是ZOL桌面壁纸下载
def xuanhuan_down_suiji():
try:
temp=25
i=88
j=i
while (i <= j+temp):
#http://desk.zol.com.cn/showpic/1920x1200_30688_33.html
url = 'http://desk.zol.com.cn/showpic/1920x1200_12'+str(i)+'_37.html'
src_url = spider_url(url)
gDownload(src_url,savePath)
time.sleep(0.1)
i+=1
except IOError:
print "url获取失败!"
if __name__ == "__main__":
#gDownload(url,savePath)
'''
#批量下载序号固定的图片
xuanhuan_down_list()
'''
'''
#批量下载隐藏jpg路径的文件
xuanhuan_down_suiji()
'''
#批量下载文件
print '下载完成!'
相关文章推荐
- python下载文件(图片)源码,包含爬网内容(爬url),可保存cookie
- Python---对html文件内容进行搜索取出特定URL地址字符串,保存成列表,并使用每个url下载图片,并保存到硬盘上,使用bs4,beautifulsoup模块
- Python---对html文件内容进行搜索取出特定URL地址字符串,保存成列表,并使用每个url下载图片,并保存到硬盘上,使用正则re
- python 使用 urllib.urlretrieve()下载网络图片,在本地打开提示文件损坏无法打开
- [转] 三种Python下载url并保存文件的代码
- python 下载 保存 图片的urllib.urlretrieve()函数 简单用法
- SEO_ASP.net SEO优化(包含URL地址重写\viewState移动和压缩至服务器\SEO信息XML生成_根据URL地址重写文件)\web网站内容压缩 源码公开.本人授权可使用于商业项目。
- 【python】写文件、复制文件、下载url链接图片
- 三种Python下载url并保存文件的代码
- Python保存一个网页的全部内容(包含链接内的图片等等)
- 下载远程(第三方服务器)文件、图片,保存到本地(服务器)的方法、保存抓取远程文件、图片
- [zz]【整理】Python中Cookie的处理:自动处理Cookie,保存为Cookie文件,从文件载入Cookie
- python 3.3 下载固定链接文件并保存
- Java 通过URL地址下载文本内容到本地文件中
- WPF用流的方式上传/显示/下载图片文件(保存在数据库)
- MFC通过URL下载并保存文件代码
- python---get/post请求下载指定URL返回的网页内容,出现gzip乱码处理。设置Accept-Encoding为gzip,deflate,返回的网页是乱码
- [au3]下载css文件里的图片,保存别人的网站时有用。
- asp.net(c#)从url网络地址下载图片或文件到本地硬盘
- 一个带采集远程文章内容,保存图片,生成文件等完整的采集功能