Jsoup解析Html之常用方法
2016-09-11 10:33
274 查看
Jsoup解析Html之常用方法
jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。接下来简要介绍Jsoup使用中常用到的一些方法:
1. 解析一个HTML字符串:
String html = "<html><head><title>First parse</title></head>" + "<body><p>Parsed HTML into a doc.</p></body></html>"; Document doc = Jsoup.parse(html);
作用:解析一个HTML字符串,生成相应的Document对象
其解析器能够尽最大可能从你提供的HTML文档来创见一个干净的解析结果,无论HTML的格式是否完整。比如它可以处理:
1、没有关闭的标签
2、隐式标签
3、创建可靠的文档结构
2. 解析一个URL网站:
Document doc = Jsoup.connect("http://blog.csdn.net/gsycwh") .data("query", "Java") // 请求参数 .userAgent("I ’ m jsoup") // 设置 User-Agent .cookie("auth", "token") // 设置 cookie .timeout(3000) // 设置连接超时时间3秒 .post(); // 使用 POST 方法访问 URL
作用:解析一个URL链接,生成所需的Document对象重点内容
Jsoup.connect(String url)方法: 说明 connect(String url) 方法创建一个新的 Connection, 和 get() 取得和解析一个HTML文件。如果从该URL获取HTML时发生错误,便会抛出 IOException,应适当处理。 Connection 接口还提供一个方法链来解决特殊请求
3. 解析一个HTML文件:
File input = new File("/tmp/input.html"); Document doc = Jsoup.parse(input, "UTF-8", "http://www.jb51.net/");
作用:解析一个现成的HTML文件,生成相应的Document对象
当你想解析本机硬盘上一个HTML文件时,可以使用静态 Jsoup.parse(File in, String charsetName, String baseUri) 方法。 这个方法用来加载和解析一个HTML文件。如在加载文件的时候发生错误,将抛出IOException,应作适当处理。 baseUri 参数用于解决文件中URLs是相对路径的问题。如果不需要可以传入一个空的字符串。 另外还有一个方法parse(File in, String charsetName) ,它使用文件的路径做为 baseUri。 这个方法适用于如果被解析文件位于网站的本地文件系统,且相关链接也指向该文件系统。
Jsoup查找对应元素的集合elements:
getElementById(String id)通过id获得元素
getElementsByTag(String tag)通过标签获得元素
getElementsByClass(String className)通过class获得元素
getElementsByAttribute(String key)通过属性获得元素
Jsoup处理元素数据的方法:
attr(String key)获得元素的数据
attr(String key, String value)设置元素数据
attributes()获得所有属性
id(), className() classNames()得到id class的值
text()得到文本值
text(String value)设置文本值
html()获取html
html(String value)设置html
outerHtml()获得内部html
data()获得数据内容
tag()得到tag 和 tagName() 得到tagname
Jsoup操作Html的方法:
append(String html), prepend(String html)
appendText(String text), prependText(String text)
appendElement(String tagName)
prependElement(String3tagName)
html(String value)
具体的实练可以看我的上一篇基于Jsoup搜索引擎的博客
发表人:梦想的边缘
相关文章推荐
- Jsoup解析HTML实例及文档方法详解
- Jsoup解析HTML实例及文档方法详解
- Android开发之利用jsoup解析HTML页面的方法
- Jsoup解析HTML实例及文档方法详解
- Jsoup解析HTML实例及文档方法详解
- Jsoup解析HTML实例及文档方法详解
- Jsoup解析HTML实例及文档方法详解
- Jsoup解析HTML实例及文档方法详解
- java中解析HTML的方法:Jsoup和正则表达式
- 关于利用Jsoup解析HTML中&nbsp;变成非传统空格或乱码问题解决方法
- Jsoup介绍及解析常用方法
- Jsoup解析HTML实例及文档方法详解
- 关于利用Jsoup解析HTML中 ;变成非传统空格或乱码问题解决方法
- PHP抓取网页、解析HTML常用的方法总结
- Jsoup解析HTML实例及文档方法详解
- Jsoup解析HTML实例及文档方法详解
- Jsoup解析HTML实例及文档方法详解
- Jsoup解析HTML实例及文档方法详解
- Jsoup解析HTML实例及文档方法详解
- 爬取微博的数据时别人用的是FM.view方法传递html标签那么jsoup怎么解析呢