python 爬虫,抓取豆瓣勾搭组妹纸照片
2013-11-24 00:00
573 查看
python 爬虫,抓取豆瓣勾搭组妹纸照片
import urllib.request import re import time #获取输入的帖子单页html def getHtml2(url2): html2=urllib.request.urlopen(url2).read().decode('utf-8') return html2 #抽取图片相关列表,并下载图片 def gettopic(html2): reg2=r'http://www.douban.com/group/topic/\d+' topiclist=re.findall(reg2,html2) x=0 #限制下载的图片数 for topicurl in topiclist: x+=1 return topicurl #下载图片到本地 def download(topic_page): reg3=r'http://img3.douban.com/view/group_topic/large/public/.+\.jpg' imglist=re.findall(reg3,topic_page) i=1 download_img=None for imgurl in imglist: #取图片ID为文件名 img_numlist=re.findall(r'p\d{7}',imgurl) for img_num in img_numlist: download_img=urllib.request.urlretrieve(imgurl,'D:\python\code\girls\%s.jpg'%img_num) time.sleep(1) i+=1 print(imgurl) return download_img #调用函数 page_end=int(input('请输入结束时的页码:')) num_end=page_end*25 num=0 page_num=1 while num<=num_end: html2=getHtml2('http://www.douban.com/group/kaopulove/discussion?start=%d'%num) topicurl=gettopic(html2) topic_page=getHtml2(topicurl) download_img=download(topic_page) num=page_num*25 page_num+=1 else: print('采集完成!')
相关文章推荐
- python数据类型转换(str跟int的转换)
- Python--如何组织项目
- python学习四(处理数据)
- Python String和PyQt QString的区别(转载)
- python3.3 学习
- Python之美[从菜鸟到高手]--urllib源码分析
- Python中的魔法方法
- 【Python】用Numpy扩充数组元素之repeat和tile
- python
- python 3.x 2.x 区别
- python的nltk中文使用和学习资料汇总帮你入门提高
- python操作MySQL数据库
- python操作Excel读写--使用xlrd
- python 文件操作
- Python的字典操作
- 用正则式判断URL是否合法-python
- python 列表函数
- python的string的操作函数
- python学习三(数据保存到文件)
- Python学习记录