【Java Utility】Jsoup网页爬虫工具--解析HTML语句片段【四】
2017-04-26 13:31
851 查看
原文出自:https://jsoup.org/cookbook/input/parse-body-fragment
需求:
有一个HTML语句片段(例如包含一系列p标签的div节点;HTML文档的一部分而非全部)需要解析,它可能来自用户提交的comment【评论】,或者在CMS系统中编辑的网页。
解决方案:
采用方法Jsoup.parseBodyFragment(String html)
说明:
方法:parseBodyFragment(html)会创建一个新的Document,并将需解析的html参数插入到body元素中。
若你使用的是常规的Jsoup.parse(String html)方法,你也会得到相同的结果;但是明确地将html参数当作HTML语句片段,能确保
用户提供的html能被解析到body元素内。
方法:Document.body()等同于doc.getElementsByTag("body"),返回Document对象的body元素的子元素。
保证安全:
当你接受用户输入的HTML时,你需要小心避免受到cross-site scripting【XSS】攻击。
需求:
有一个HTML语句片段(例如包含一系列p标签的div节点;HTML文档的一部分而非全部)需要解析,它可能来自用户提交的comment【评论】,或者在CMS系统中编辑的网页。
解决方案:
采用方法Jsoup.parseBodyFragment(String html)
//定义HTML语句片段 String html = "<div><p>Lorem ipsum.</p>"; //获取Document对象 Document doc = Jsoup.parseBodyFragment(html); //获取body元素 Element body = doc.body();
说明:
方法:parseBodyFragment(html)会创建一个新的Document,并将需解析的html参数插入到body元素中。
若你使用的是常规的Jsoup.parse(String html)方法,你也会得到相同的结果;但是明确地将html参数当作HTML语句片段,能确保
用户提供的html能被解析到body元素内。
方法:Document.body()等同于doc.getElementsByTag("body"),返回Document对象的body元素的子元素。
保证安全:
当你接受用户输入的HTML时,你需要小心避免受到cross-site scripting【XSS】攻击。
相关文章推荐
- 【Java Utility】Jsoup网页爬虫工具--将String解析成Document【三】
- 【Java Utility】Jsoup网页爬虫工具--文档解析及转换【二】
- 【Java Utility】Jsoup网页爬虫工具--从元素/元素集中提取属性、文本和HTML内容【九】
- 【Java Utility】Jsoup网页爬虫工具--设置Element的HTML内容【十二】
- 【Java Utility】Jsoup网页爬虫工具--从URL加载Document【五】
- 【Java Utility】Jsoup网页爬虫工具--使用DOM方法浏览Document【七】
- 【Java Utility】Jsoup网页爬虫工具--设置属性值【十一】
- 【Java Utility】Jsoup网页爬虫工具--从文件加载Document【六】
- 【Java Utility】Jsoup网页爬虫工具-使用选择器查找元素【八】
- 【Java Utility】Jsoup网页爬虫工具简介Java HTML PARSER【一】
- 【网络爬虫】【java】微博爬虫(四):数据处理——jsoup工具解析html、dom4j读写xml
- Java爬虫入门简介(二) —— Jsoup解析HTML页面
- jsoup 解析html网页标签获取数据(java 网页解析 数据)
- Java爬虫入门简介(二) —— Jsoup解析HTML页面
- 通过jsoup工具实现java解析html
- java的jsoup介绍--java爬虫与java解析html
- java 爬虫 网页解析(Jsoup)
- Java网页资源抓取例子(使用第三方包Jsoup解析Html)
- 很好的Java 对 HTML 解析工具--Jsoup
- Java 爬虫工具Jsoup解析