您的位置:首页 > Web前端 > JavaScript

爬虫利器:Selenium+PhantomJS

2016-10-20 21:07 471 查看

Selenium

Selenium是一个可以真实模拟浏览器运作的工具。

需要下载selenium.exe文件和安装
selenium
包。

下面是一个简单的模拟访问百度,并点击进入python官网的例子。

# coding=utf-8
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
driver = webdriver.Chrome()
driver.get("http://www.baidu.com")
assert u"百度一下" in driver.title
elem = driver.find_element_by_xpath("//*[@id=\"kw\"]")
elem.clear()
elem.send_keys("python")
elem.send_keys(Keys.RETURN)
WebDriverWait(driver,10).until(
EC.presence_of_all_elements_located((By.LINK_TEXT,'Welcome to Python.org'))
)
driver.find_element_by_link_text("Welcome to Python.org").click()


需要注意的是这里显示的等待了,百度搜索页面加载完毕。

官方文档

PhantomJS

这是一个没有界面的浏览器,对js的加载行为完全一样,因为启动Chrome比较慢,所以通过这个可以比较快的完成!一般来说就是先用Chrome可视化的加载,等待完成以后,改变浏览器的引擎就可以了!

driver = webdriver.PhantomJS()


这样配置就可以使用了!
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  python selenium PhantomJS