爬虫的自我解剖(抓取网页HtmlUnit)
2016-12-11 22:45
246 查看
http://www.cnblogs.com/luotinghao/p/3800054.html
网络爬虫第一个要面临的问题,就是如何抓取网页,抓取其实很容易,没你想的那么复杂,一个开源HtmlUnit包,4行代码就OK啦,例子如下:
1、
HtmlUnit对
Javascript的支持不是很好
2、
HtmlUnit对
CSS的支持不是很好
明白了上面的两点后,将代码重新改写一下,该禁用的就禁用,同时禁用一些不必要的功能,也有利于提高程序的运行效率,再者说网络爬虫也不需要CSS的支持滴
HtmlUnit的使用: 简介:
HtmlUnit说白了就是一个浏览器,这个浏览器是用Java写的无界面的浏览器,正因为其没有界面,因此执行的速度还是可以滴,
HtmlUnit提供了一系列的API,这些API可以干的功能比较多,如表单的填充,表单的提交,模仿点击链接,由于内置了
Rhinojs引擎,因此可以执行
Javascript
作用:web的自动化测试(最初的目的),浏览器,网络爬虫
重要API的使用 在介绍API的使用之前要先明白的一个问题是,WebClient,WebWindow,Page三者之间的关系,所有的页面最终都是在一个WebWindow对象里面,WebClient在创建时会自动的创建一个WebWindow对象,当调用getPage时会将新页面加载到WebWindow里,你可以理解成WebClient就是IE内核,WebWindow就是呈现页面的浏览器窗口,三者之间的关系图如下图所示:
1、模拟特定浏览器,也可以指定浏览器的相应版本(HtmlUnit最新版2.13现在可以模拟的浏览器有
Chrome/
FireFox/
IE)
方法一,通过get方法获取
XPath相关教程请查看我的个人博客
相关文章推荐
- 爬虫的自我解剖(抓取网页HtmlUnit)
- [转载]爬虫的自我解剖(抓取网页HtmlUnit)
- 爬虫的自我解剖(抓取网页HtmlUnit)
- 爬虫的自我解剖(抓取网页HtmlUnit)
- 一个爬虫的自我修养之使用urllib进行网页抓取
- python 爬虫(二)一个带下载进度的网页抓取小爬虫
- Python爬虫之网页图片抓取的方法
- c#关于网页内容抓取,简单爬虫的实现。(包括动态,静态的)
- 网页抓取HtmlUnit的使用简介
- 爬虫抓取网页
- java爬虫实战简单用Jsoup框架进行网页爬虫(如抓取网页图片)
- C#网页爬虫抓取行政区划
- 网页抓取:PHP实现网页爬虫方式小结
- python3实现网络爬虫(5)--模拟浏览器抓取网页
- 1.python爬虫抓取单一网页
- 汪海Python爬虫(一)抓取网页的含义和URL基本构成
- 爬虫抓取网页相似度判断
- c#关于网页内容抓取,简单爬虫的实现。(包括动态,静态的)
- 自己写网页爬虫——网页分类抓取/采集并导入数据库
- Linux企业级项目实践之网络爬虫(9)——通过URL抓取网页内容