【Java Utility】Jsoup网页爬虫工具简介Java HTML PARSER【一】
2017-04-26 10:47
501 查看
原文出自Jsoup项目官网https://jsoup.org/
Jsoup是一款解析HTML文档的Java库。它提供了一系列基于DOM解析、CSS、Jquery等方法实现,用来提取和控制数据的API。
Jsoup可以像现在主流浏览器一样,将HTML解析成DOM树,并实现以下操作:
1、从URL/文件/字符串中解析HTML;
2、使用遍历DOM树或CSS选择器来查找或提取数据;
3、对HTML的元素、属性、文本进行操作;
4、依靠白名单清理用户提交的内容,以防止XSS【注:跨站脚本攻击Cross
Site Scripting】攻击;
5、输出清晰简明的HTML。
示例:
获取WikiPedia主页,转成DOM树,从news中选择所有headlines【头条】,将其放入elements list【元素列表】
Jsoup是开源项目,你可以从如下地址下载相关jar包:
Jsoup当前最新版本为version 1.10.2,以下文件可供下载:
Jsoup是一款解析HTML文档的Java库。它提供了一系列基于DOM解析、CSS、Jquery等方法实现,用来提取和控制数据的API。
Jsoup可以像现在主流浏览器一样,将HTML解析成DOM树,并实现以下操作:
1、从URL/文件/字符串中解析HTML;
2、使用遍历DOM树或CSS选择器来查找或提取数据;
3、对HTML的元素、属性、文本进行操作;
4、依靠白名单清理用户提交的内容,以防止XSS【注:跨站脚本攻击Cross
Site Scripting】攻击;
5、输出清晰简明的HTML。
示例:
获取WikiPedia主页,转成DOM树,从news中选择所有headlines【头条】,将其放入elements list【元素列表】
//连接到主页,获取DOM文档对象 Document doc = Jsoup.connect("http://en.wikipedia.org/").get(); //使用CSS选择器获取elements列表 Elements newsHeadlines = doc.select("#mp-itn b a");
Jsoup是开源项目,你可以从如下地址下载相关jar包:
Download jsoup
Jsoup当前最新版本为version 1.10.2,以下文件可供下载:jsoup-1.10.2.jar//核心library
jsoup-1.10.2-sources.jar//可选资源包
jsoup-1.10.2-javadoc.jar//可选javadoc包
相关文章推荐
- 【Java Utility】Jsoup网页爬虫工具--从URL加载Document【五】
- 【Java Utility】Jsoup网页爬虫工具--解析HTML语句片段【四】
- 【Java Utility】Jsoup网页爬虫工具-使用选择器查找元素【八】
- 【Java Utility】Jsoup网页爬虫工具--从文件加载Document【六】
- 【Java Utility】Jsoup网页爬虫工具--使用DOM方法浏览Document【七】
- 【Java Utility】Jsoup网页爬虫工具--设置Element的HTML内容【十二】
- 【Java Utility】Jsoup网页爬虫工具--将String解析成Document【三】
- 【Java Utility】Jsoup网页爬虫工具--从元素/元素集中提取属性、文本和HTML内容【九】
- 【Java Utility】Jsoup网页爬虫工具--设置属性值【十一】
- 【Java Utility】Jsoup网页爬虫工具--文档解析及转换【二】
- Java 爬虫工具Jsoup详解
- 【正完成】Java基于Jsoup的网络爬虫工具实现
- Jsoup简介——使用Java抓取网页数据
- Java爬虫入门简介(二) —— Jsoup解析HTML页面
- Java爬虫入门简介(二) —— Jsoup解析HTML页面
- jsoup 分页抓取网页数据Java HTML Parser
- java爬虫(使用jsoup设置代理,抓取网页内容)
- java爬虫实战简单用Jsoup框架进行网页爬虫(如抓取网页图片)
- Java爬虫入门简介(四)——抓包工具的使用以及使用HttpClient模拟用户登录的访问
- Jsoup简介——使用Java抓取网页数据