【Jsoup学习礼记】解析和遍历一个HTML文档
2015-03-11 15:16
411 查看
如何解析一个HTML文档:
(更详细内容可查看 解析一个HTML字符串.)
其解析器能够尽最大可能从你提供的HTML文档来创见一个干净的解析结果,无论HTML的格式是否完整。比如它可以处理:
没有关闭的标签 (比如:
隐式标签 (比如. 它可以自动将
创建可靠的文档结构(html标签包含head 和 body,在head只出现恰当的元素)
文档由多个Elements和TextNodes组成 (以及其它辅助nodes:详细可查看:nodes package
tree).
其继承结构如下:
一个Element包含一个子节点集合,并拥有一个父Element。他们还提供了一个唯一的子元素过滤列表。
String html = "<html><head><title>First parse</title></head>" + "<body><p>Parsed HTML into a doc.</p></body></html>"; Document doc = Jsoup.parse(html);
(更详细内容可查看 解析一个HTML字符串.)
其解析器能够尽最大可能从你提供的HTML文档来创见一个干净的解析结果,无论HTML的格式是否完整。比如它可以处理:
没有关闭的标签 (比如:
<p>Lorem <p>Ipsumparses to
<p>Lorem</p> <p>Ipsum</p>)
隐式标签 (比如. 它可以自动将
<td>Table data</td>包装成
<table><tr><td>?)
创建可靠的文档结构(html标签包含head 和 body,在head只出现恰当的元素)
一个文档的对象模型
文档由多个Elements和TextNodes组成 (以及其它辅助nodes:详细可查看:nodes packagetree).
其继承结构如下:
Document继承
Element继承
Node.
TextNode继承
Node.
一个Element包含一个子节点集合,并拥有一个父Element。他们还提供了一个唯一的子元素过滤列表。
相关文章推荐
- 【使用JSOUP实现网络爬虫】入门:解析和遍历一个HTML文档
- Jsoup入门-解析和遍历一个html文档
- jsoup官方解析和遍历一个HTML文档
- 【使用JSOUP实现网络爬虫】入门:解析和遍历一个HTML文档
- 【Jsoup学习礼记】使用DOM方法来遍历一个文档
- jsoup教程002-解析和遍历一个html文档
- 【jsoup的学习礼记】设置一个元素的HTML内容
- JSOUP实践:解析和遍历HTML文档
- 【Jsoup学习礼记】从一个文件加载一个文档
- JSOUP实践:解析和遍历HTML文档
- 【Jsoup学习礼记】解析一个HTML字符串
- 【Jsoup学习礼记】解析一个body片断
- jsoup 对 HTML 文档进行解析和操作
- 使用 jsoup 对 HTML 文档进行解析和操作
- 使用 jsoup 对 HTML 文档进行解析和操作
- 使用 jsoup 对 HTML 文档进行解析和操作
- 使用 jsoup 对 HTML 文档进行解析和操作
- 使用 jsoup 对 HTML 文档进行解析和操作(转)
- jsoup 解析HTML 文档
- HtmlTestCode:循环遍历当前文档中的元素,将子元素的Name及个数输出到一个空白文档中