您的位置:首页 > 编程语言 > Java开发

【Java Utility】Jsoup网页爬虫工具--解析HTML语句片段【四】

2017-04-26 13:31 851 查看
原文出自:https://jsoup.org/cookbook/input/parse-body-fragment

需求:

有一个HTML语句片段(例如包含一系列p标签的div节点;HTML文档的一部分而非全部)需要解析,它可能来自用户提交的comment【评论】,或者在CMS系统中编辑的网页。

解决方案:
采用方法Jsoup.parseBodyFragment(String html)

//定义HTML语句片段
String html = "<div><p>Lorem ipsum.</p>";
//获取Document对象
Document doc = Jsoup.parseBodyFragment(html);
//获取body元素
Element body = doc.body();


说明:

方法:parseBodyFragment(html)会创建一个新的Document,并将需解析的html参数插入到body元素中。

若你使用的是常规的Jsoup.parse(String html)方法,你也会得到相同的结果;但是明确地将html参数当作HTML语句片段,能确保

用户提供的html能被解析到body元素内。

方法:Document.body()等同于doc.getElementsByTag("body"),返回Document对象的body元素的子元素。

保证安全:


当你接受用户输入的HTML时,你需要小心避免受到cross-site scripting【XSS】攻击。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: