Jsoup 学习笔记
2014-11-26 09:39
232 查看
今天学习一个Jsoup jar包,做点笔记加强记忆 http://jsoup.org/,主要是翻译这里的
jsoup: Java HTML解析器的主要作用
scrape and
parse HTML from a URL, file, or string 从URL,文件,字符冲中抓取并解析HTML
find and extract data, using DOM traversal or CSS selectors 查找和提取数据,使用DOM遍历 或者CSS选择器
manipulate the HTML elements, attributes, and text 操作HTML元素,属性和文本
clean user-submitted content against a safe white-list, to preventXSS attacks 清除用户提交的内容,阻止XSS攻击
output tidy HTML HTML格式化输出
举个例子Jsoup如何查找数据:
通过Jsoup解析出来的DOM文件继承图如下: 该DOM文件包含 Elements 和 TextNodes
一个Element 包含很多子 Nodes, 但只有一个父Element.
使用静态方法
jsoup: Java HTML解析器的主要作用
scrape andparse HTML from a URL, file, or string 从URL,文件,字符冲中抓取并解析HTML
find and extract data, using DOM traversal or CSS selectors 查找和提取数据,使用DOM遍历 或者CSS选择器
manipulate the HTML elements, attributes, and text 操作HTML元素,属性和文本
clean user-submitted content against a safe white-list, to preventXSS attacks 清除用户提交的内容,阻止XSS攻击
output tidy HTML HTML格式化输出
举个例子Jsoup如何查找数据:
Document doc = Jsoup.connect("http://www.baidu.com").get();//取到baidu页面,解析成DOM文件 Elements newsHeadlines = doc.select("#span input");//通过elements列表中选中搜索框
通过Jsoup解析出来的DOM文件继承图如下: 该DOM文件包含 Elements 和 TextNodes
Document继承自
Element
继承自Node.
TextNode
继承自Node.
一个Element 包含很多子 Nodes, 但只有一个父Element.
解析HTML 文件
从String中解析HTML文件
使用静态方法Jsoup.parse(String html)
或者 网页文件Jsoup.parse(String
html, String baseUri)
String html = "<html><head><title>First parse</title></head>" + "<body><p>Parsed HTML into a doc.</p></body></html>"; Document doc = Jsoup.parse(html);
解析HTML中的BODY段部分 使用 Jsoup.parseBodyFragment(String
html)
方法
Jsoup.parseBodyFragment(String html)方法
String html = "<div><p>Lorem ipsum.</p>"; Document doc = Jsoup.parseBodyFragment(html); Element body = doc.body();
从某个URL中加载
Document doc = Jsoup.connect("http://example.com/").get(); String title = doc.title();
从某个文件中加载
File input = new File("/tmp/input.html"); Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/"); 使用类似DOM的方法才获取页面元素 使用CSS 或JQuery 选择器来获取所有页面元素 从DOM文件中获取属性,文本等页面元素
相关文章推荐
- Jsoup学习笔记5:Jsoup 解析SAZ文件中的htm文档源码实例
- jsoup 学习笔记
- jsoup学习笔记
- 学习笔记-spring-mybatis-jsoup-http-client小说站点爬虫(1)--获取小说站点章节列表
- Jsoup学习笔记4:Jsoup 解析Html源码实例
- Jsoup学习笔记7之File类操作文件:复制只包含指定类型文件的文件夹,并在新创建的同名文件夹中创建同名的另一种格式的文件
- Jsoup学习笔记6之File类操作文件:获取指定目录下面,指定扩展名(.saz)的文件,并在对应的文件夹下生成同名的csv文件。
- 【JSOUP】如何解析HTML对象?学习笔记1
- Andorid中使用Jsoup解析库解析XML、HTML、Dom节点---第三方库学习笔记(三)
- Jsoup学习笔记2:Jsoup解析HTML代码标签与属性
- Jsoup学习笔记8:Jsoup 解析指定目录中的saz文件,生成一个名字相同的htm文件,将解析结果写入csv文件中
- Jsoup(1.7.3)学习笔记
- HTML 解析器---Jsoup学习笔记
- jsoup 学习笔记
- Jsoup学习笔记9:Jsoup 解析saz文件,读取其中的htm文件到字符串,提取字符串中的数据写入csv文件中
- Jsoup学习笔记10:Saz2Csv解析器
- Jsoup学习笔记1:解析字符串
- 我的学习笔记02-Android下利用Jsoup从工行网页提取白银价格到自己的app
- Jsoup学习笔记3:Jsoup 解析Html源码实例
- Struts 学习笔记1 -Struts Framework 概览