您的位置：首页 > Web前端 > JavaScript

爬虫利器：Selenium+PhantomJS

2016-10-20 21:07 471 查看

Selenium

Selenium是一个可以真实模拟浏览器运作的工具。

需要下载selenium.exe文件和安装

selenium

包。

下面是一个简单的模拟访问百度，并点击进入python官网的例子。

# coding=utf-8
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
driver = webdriver.Chrome()
driver.get("http://www.baidu.com")
assert u"百度一下" in driver.title
elem = driver.find_element_by_xpath("//*[@id=\"kw\"]")
elem.clear()
elem.send_keys("python")
elem.send_keys(Keys.RETURN)
WebDriverWait(driver,10).until(
EC.presence_of_all_elements_located((By.LINK_TEXT,'Welcome to Python.org'))
)
driver.find_element_by_link_text("Welcome to Python.org").click()

需要注意的是这里显示的等待了，百度搜索页面加载完毕。

官方文档

PhantomJS

这是一个没有界面的浏览器，对js的加载行为完全一样，因为启动Chrome比较慢，所以通过这个可以比较快的完成！一般来说就是先用Chrome可视化的加载，等待完成以后，改变浏览器的引擎就可以了！

driver = webdriver.PhantomJS()

这样配置就可以使用了！

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： python selenium PhantomJS

相关文章推荐

新的分享

章节导航