您的位置:首页 > 移动开发 > Android开发

android爬虫 jsoup

2017-05-12 09:09 225 查看
官网地址

https://jsoup.org/

jsoup:Java HTML解析器

jsoup是一个用于处理真实HTML的Java库。它提供了一个非常方便的API来提取和操作数据,使用最好的DOM,CSS和类似jquery的方法。

jsoup实现WHATWG HTML5规范,并将HTML解析为与现代浏览器相同的DOM。

从URL,文件或字符串中刮取并解析 HTML

查找和提取数据,使用DOM遍历或CSS选择器

操纵 HTML元素,属性和文本

根据安全的白名单清理用户提交的内容,以防止XSS攻击

输出整洁的HTML

jsoup旨在处理野外发现的所有品种的HTML; 从原始和验证,到无效的标签汤; jsoup将创建一个明智的解析树。

移除不需要的元素标签

public Elements remove()

移除每一个匹配的元素从当前的DOM中.
这类似于将每个元素的外部 html 设置为 "无"。

示例:
HTML: <div><p>Hello</p> <p>there</p> <img /></div>

doc.select("p").remove();

结果:
HTML = <div> <img /></div>

请注意, 此方法不应用于清除用户提交的 html;相反, 使用清理程序来清除 html。

返回值:
本身(this), 用于链接

同类可见:
Element.empty(), empty()


Gradle

// jsoup HTML parser library @ http://jsoup.org/ compile 'org.jsoup:jsoup:1.10.2'


github地址

https://github.com/jhy/jsoup/
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: