您的位置：首页 > 理论基础 > 计算机网络

jsoup网络爬取数据HTML解析

2016-12-22 18:47 302 查看

Jsoup是一款网络爬取数据的解析器，可以解析HTML文件中的任何子节点，支持离线HTML文件、字符型HTML内容、URL的解析。非常方便和实用。

Document doc = Jsoup.connect("https://www.zhihu.com/").get();
//File f = new File("pathname");
//Document doc = Jsoup.parse(f, "UTF-8", "");//离线文件形式
//Document doc = Jsoup.parse("html_String");//HTML格式的字符串
Elements links = doc.select("a[href]");
for (Element link : links) {
sff.append(link.attr("abs:href")).append("  ").append(link.text()).append(" ");
}
myString = sff.toString();
Log.i("href:", myString);

它获取内容的主要方式如下几点：

1.通过标签名来查找

3325

Elements elements = doc.select("span");

注：通过标签来查找，直接写 "标签名" 就好，不需要尖括号。

2.通过 id 来查找

36 20

Elements elements = doc.select("#mySpan");

注：通过id来查找，使用方法跟css指定元素一样，用#

3.通过 class名来查找

3620

Elements elements = doc.select(".myClass");

注：通过id来查找，使用方法跟css指定元素一样，用 .

4.利用标签内属性名查找元素

3636

Elements elements = doc.select("span[class=class1]span[id=id1]");

注：规则为标签名【属性名=属性值】，标签名可写可不写，多个属性即多个【】，如上。

5.利用标签内属性名前缀查找元素

3622

Elements elements = doc.select("span[^cl]");

注：规则为标签名【^属性名前缀】，标签名可写可不写，多个属性即多个【】。

6.利用标签内属性名+正则表达式查找元素

3622

Elements elements = doc.select("span[class~=^AB]");

注：规则为标签名【属性名~=正则表达式】，以上的正则表达式的意思是查找以class值以AB为开头的标签，标签名可写可不写，多个属性即多个【】

7.利用标签文本包含某些内容来查找

3622

Elements elements = doc.select("span:contains(3)");

注：规则为标签名:contains(文本值)

8.利用标签文本包含某些内容+正则表达式来查找

3622

Elements elements = doc.select("span:matchesOwn(^3)");

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航

jsoup网络爬取数据HTML解析

1.通过标签名来查找

2.通过 id 来查找

3.通过 class名 来查找

4.利用标签内 属性名 查找元素

5.利用标签内 属性名前缀 查找元素

6.利用标签内 属性名+正则表达式 查找元素