Python 爬虫 —— 获取js渲染的内容
2017-06-22 21:36
1031 查看
在访问某网站时发现在HTML源码中看不到所需的数据:
网页内容:
HTML源码内容:
于是,我们想到了一个最简单的方法——用 Selenium + PhantomJS 来实现模拟浏览从而获取想要的内容。
下面是示例代码:
我们可以看到:
网页内容:
HTML源码内容:
于是,我们想到了一个最简单的方法——用 Selenium + PhantomJS 来实现模拟浏览从而获取想要的内容。
下面是示例代码:
from selenium import webdriver browser = webdriver.PhantomJS(executable_path = './phantomjs') browser.get("http://www.site-digger.com/html/articles/20110516/proxieslist.html") trs = browser.find_elements_by_tag_name('tr') for tr in trs[1:]: print(tr.text.split(' ')[0])
我们可以看到:
相关文章推荐
- Python爬虫:Selenium+ BeautifulSoup 爬取JS渲染的动态内容(雪球网新闻)
- 在Python中使用CasperJS获取JS渲染生成的HTML内容的教程
- python 爬虫如何获取js里面的内容
- Python爬虫实战入门五:获取JS动态内容—爬取今日头条
- Python爬虫实战入门五:获取JS动态内容—爬取今日头条
- Python 爬虫 PhantomJs 获取JS动态数据
- PhantomJS(webkit)/SlimerJS (Gecko) + CasperJS获取JavaScript渲染后的网页内容
- Python爬虫之web内容获取(一)
- Python爬虫学习,记一次抓包获取js,从js函数中取数据的过程
- Python爬虫如何获取动态内容-上
- Python 爬虫模块 bs4 实战一:获取百度贴吧内容
- Python 爬虫 PhantomJs 获取JS动态数据
- Python爬虫如何获取动态内容-下
- python爬虫——获取正文内容
- 从零开始写Python爬虫 --- 1.5 爬虫实践: 获取百度贴吧内容
- PhantomJS(webkit)/SlimerJS (Gecko) + CasperJS获取JavaScript渲染后的网页内容
- Python爬虫_获取贴吧内容
- python获取完整网页内容(即包括js动态加载的):selenium+phantomjs
- python爬虫获取网页内容
- JS获取父框架的内容:获取子框架的内容:js框架应用