Python爬虫(二十三)_selenium案例:动态模拟页面点击
2017-12-26 21:50
591 查看
#-*- coding:utf-8 -*- import unittest from selenium import webdriver from selenium.webdriver.common.keys import Keys from bs4 import BeautifulSoup import time class douyuSelenium(unittest.TestCase): #初始化方法 def setUp(self): self.driver = webdriver.PhantomJS(service_args=['--ignore-ssl-errors=true', '--ssl-protocol=any']) #具体的测试用例方法,一定要以test开头 def testDouyu(self): self.driver.get("http://www.douyu.com/directory/all") while True: #指定xml解析 soup = BeautifulSoup(self.driver.page_source, "lxml") #返回当前页面的所有房间标题列表和观众人数列表 titles = soup.find_all('h3' , {'class':"ellipsis"}) print(len(titles)) nums = soup.find_all('span', {'class': "dy-num fr"}) # #使用zip()函数把列表合并,并创建一个远相对的列表[(1, 2), (3, 4)] for title, num in zip(nums, titles): print(u'观众人数: '+num.get_text().strip(), u'\t房间标题: '+title.get_text().strip()) #page_source.find()未找到内容则返回-1 if self.driver.page_source.find('shark-pager-disable-next') != -1: break self.driver.find_element_by_class_name('shark-pager-next').click() time.sleep(1) # 退出时的清理方法 def tearDown(self): print("加载完成...") self.driver.quit() if __name__ == '__main__': unittest.main()
相关文章推荐
- python爬虫 使用selenium+phontomjs 模拟点击输入 获取东航加载后的源码 机票价格
- Python爬虫(二十二)_selenium案例:模拟登陆豆瓣
- Python爬虫(入门+进阶)学习笔记 1-8 使用自动化神器Selenium爬取动态网页(案例三:爬取淘宝商品)
- 案例二:动态页面模拟点击
- Python selenium爬虫抓取船舶网站数据(动态页面)
- Python爬虫爬取动态页面思路+实例(二)
- Python爬虫之爬取动态页面数据
- python /selenium /动态网页 /爬虫
- python --selenium+phantomjs爬取动态页面广告源码
- Python爬虫:Selenium+ BeautifulSoup 爬取JS渲染的动态内容(雪球网新闻)
- python中 Selenium--》爬虫的终极大招,可用作自动化模拟操作
- [Python爬虫] Selenium+Phantomjs动态获取CSDN下载资源信息和评论
- Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容
- Python利用selenium模拟浏览器抓取异步加载等难爬页面信息
- selenium自动化测试工具开发python爬虫-动态加载页面数据获取
- python 针对selenium+phontomjs等模拟浏览器爬虫的反爬技术点
- Python爬虫实战——签名软件设计(一)python POST模拟网页按钮点击
- 模拟js的首页动态推荐页面 Gallery 自动播放 无限循环 指示器显示 点击事件
- 【python爬虫】动态加载页面的解决办法(以ins为例)
- python+Selenium2+chrome构建动态网页爬虫工具