小白学爬虫——爬取半次元热门榜top100
2017-10-23 13:26
323 查看
from selenium import webdriver from selenium.webdriver.common.keys import Keys import urllib import re def ImgSave(url,n): u=urllib.request.urlopen(url) data=u.read() file=open("F://pic//"+str(n)+".jpg","wb") file.write(data) file.close() n=0 driver = webdriver.Chrome() driver.get("https://bcy.net/login") elem_name=driver.find_element_by_id('email') elem_pwd=driver.find_element_by_id('password') elem_name.send_keys("442110511@qq.com") elem_pwd.send_keys("fuzhe631123") driver.find_element_by_xpath('//input[@class="btn_green_w121"]').click() driver.find_element_by_xpath("//a[@href='/illust']").click() q=20171021 driver.find_element_by_xpath("//a[@href='/illust/toppost100']").click() print("正在打印"+q+"的排行榜") while(q>20171016): s=driver.page_source pattern=re.compile('work-thumbnail__topBd.*?<a href="(.*?)" target',re.S) imgs=re.findall(pattern,s) for i in imgs: url='https://bcy.net'+i driver.get(url) s=driver.page_source p = re.compile('<img class="detail_std detail_clickable" src="(.*?)"', re.S) ms = re.findall(p, s) for m in ms: n=n+1 ImgSave(m,n) q = q - 1 driver.get("https://bcy.net/illust/toppost100?type=week&date="+str(q)) driver.close()
相关文章推荐
- 【专题】CSDN下载频道【2月热门资源TOP100】汇总
- 中文热门开源项目Top100,你知道多少?
- [原创] Python3.6+request+beautiful 半次元Top100 爬虫实战,将小姐姐的cos美图获得
- 【Python简单爬虫设计】对豆瓣TOP100的电影名及简要的爬取
- Python爬虫,用于抓取豆瓣电影Top前100的电影的名称
- 今天写的一个用爬虫爬猫眼电影top100的完整代码
- 中文热门开源项目Top100
- Python爬虫之三:抓取猫眼电影TOP100
- python 爬虫项目-爬取猫眼top100电影
- Java Top 100热门问答(Stackoverflow)
- 热门论坛排行top100--2010年07月11日[转]
- CSDN下载频道【2月热门资源TOP100】汇总
- python 爬虫抓取猫眼电影 top100 源码
- Python爬虫-爬取猫眼电影Top100榜单
- 【爬虫】爬取猫眼电影top100
- python爬虫爬取猫眼电影top100
- 猫眼爬虫Top100
- 一个简单的python爬虫程序 爬取豆瓣热度Top100以内的电影信息
- python爬虫实战:抓取猫眼电影TOP100存放到MongoDB中
- SqlServer2005使用top 100 PERCENT 无法排序的问题