您的位置:首页 > 编程语言 > Java开发

【Java Utility】Jsoup网页爬虫工具简介Java HTML PARSER【一】

2017-04-26 10:47 501 查看
原文出自Jsoup项目官网https://jsoup.org/

Jsoup是一款解析HTML文档的Java库。它提供了一系列基于DOM解析、CSS、Jquery等方法实现,用来提取和控制数据的API。
Jsoup可以像现在主流浏览器一样,将HTML解析成DOM树,并实现以下操作:

1、从URL/文件/字符串中解析HTML;
2、使用遍历DOM树或CSS选择器来查找或提取数据;
3、对HTML的元素、属性、文本进行操作;
4、依靠白名单清理用户提交的内容,以防止XSS【注:跨站脚本攻击Cross
Site Scripting】攻击;
5、输出清晰简明的HTML。

示例:
获取WikiPedia主页,转成DOM树,从news中选择所有headlines【头条】,将其放入elements list【元素列表】
//连接到主页,获取DOM文档对象
Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
//使用CSS选择器获取elements列表
Elements newsHeadlines = doc.select("#mp-itn b a");


Jsoup是开源项目,你可以从如下地址下载相关jar包:


Download jsoup

Jsoup当前最新版本为version 1.10.2,以下文件可供下载:
jsoup-1.10.2.jar
 //核心library
jsoup-1.10.2-sources.jar
 //可选资源包
jsoup-1.10.2-javadoc.jar
//可选javadoc包
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: