您的位置：首页 > 编程语言 > Java开发

【Java Utility】Jsoup网页爬虫工具--解析HTML语句片段【四】

2017-04-26 13:31 851 查看

原文出自：https://jsoup.org/cookbook/input/parse-body-fragment

需求：

有一个HTML语句片段（例如包含一系列p标签的div节点；HTML文档的一部分而非全部）需要解析，它可能来自用户提交的comment【评论】,或者在CMS系统中编辑的网页。

解决方案：
采用方法Jsoup.parseBodyFragment(String html)

//定义HTML语句片段
String html = "<div><p>Lorem ipsum.</p>";
//获取Document对象
Document doc = Jsoup.parseBodyFragment(html);
//获取body元素
Element body = doc.body();

说明：
方法：parseBodyFragment(html)会创建一个新的Document，并将需解析的html参数插入到body元素中。

若你使用的是常规的Jsoup.parse(String html)方法，你也会得到相同的结果；但是明确地将html参数当作HTML语句片段，能确保

用户提供的html能被解析到body元素内。

方法：Document.body()等同于doc.getElementsByTag("body")，返回Document对象的body元素的子元素。

保证安全：

当你接受用户输入的HTML时，你需要小心避免受到cross-site scripting【XSS】攻击。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航