您的位置:首页 > 移动开发 > Android开发

Android Jsoup 爬取网页数据

2017-08-20 11:33 260 查看

一不小心一个月又过去了,事实上近期还是小忙小忙的,废话不多说。直接进入今天的主题吧。

Jsoup – Java HTML Parser, with best of DOM, CSS, and jquery.。看这个介绍就知道。这个就是方便咱们

Java
Android
来解析
HTML
的。

HTML 标签

要去爬别人的

HTML
标签的话,首先你肯定得有一定的
HTML
的基础知识吧。

比方说经常使用的标签。标签的相关属性,这个就不多说了,有相关问题都能够在 www.w3school.com.cn 的站点解决一下。

载入网页

最简单的,直接载入一个网页:

Document document = Jsoup.connect("https://www.google.com").get();

那看到最后的

get()
方法聪明滴你一定就猜到另一个相应的
post()
方法了吧。

另外,

http
请求的相关操作都是能够设置的。包括
header
请求參数。请求超时等等。除此之外,本地的文件(IO流)等都是能够直接解析的哈。

Document document = Jsoup.connect("https://android-arsenal.com")
.timeout(5000)
.cookie("cookie", "cxxx")
.header("xx", "xx")
.userAgent("")
.get();

基本标签解析

之后咱们就得到了一个

Document
的对象了。这个对象就是对整个请求网页的封装。相关内容都能够在里面获取。

来吧,增加我们有以下一段html标签须要解析:

RendererRecyclerViewAdapter
Recycler Views

Free
New

A single adapter for the whole project.

  • Now you do not need to implement adapters for RecyclerView.
  • You can easily use several types of cells in a single list.
  • Using this library will protect you from the appearance of any business logic in an adapter.
Mar 17, 2017 " data-snippet-id="ext.8586638da0117b735369be55f34e6d37" data-snippet-saved="false" data-codota-status="done">[code]<div class="project-info clearfix"> <div class="header"> <div class="title"> <a href="/details/1/5442">RendererRecyclerViewAdapter</a> <a class="tags" href="/tag/199">Recycler Views</a> </div> <a class="badge free" href="/free">Free</a> <a class="badge new" href="/recent">New</a> </div> <div class="desc"> <p>A single adapter for the whole project.</p> <ul> <li>Now you do not need to implement adapters for RecyclerView.</li> <li>You can easily use several types of cells in a single list.</li> <li>Using this library will protect you from the appearance of any business logic in an adapter.</li> </ul> </div><div class="ftr l"><i class="fa fa-calendar"></i> Mar 17, 2017</div> </div>

Jsoup
里面对于标签的寻找使用的方法是
select()
方法。这种方法不要太强大了。咱们一步一步的来。

比方我们要在茫茫标签中找到

<div class="project-info clearfix">
的话,拿这里就是应该
findElementByClass()
,那么在
Jsoup
中是怎么定义这一块的呢?

哈哈,非常easy嘛,那就是

document.select("div.project-info clearfix")
咯,当然不是这样子的。等等
class
属性里面这个空格是什么意思啊?是不是一脸懵逼?这里终于的写法是
document.select("div.project-info.clearfix")
空格须要用
.
来处理。

Elements select = document.select("div.project-info.clearfix");

这里得到是一个集合。

我们接下来就须要遍历这个集合,然后把里面的每个标签都拔出来。

title 部分的解析,这里是一个

<div>
里面嵌套了一个
<a>
的标签。这里就涉及到了解析
<a>
标签了。这里我们须要相应的
href
,也须要相应的
text
Jsoup
提供了相应的两个方法
attr()
text()

Elements elements = e.select("div.title");
if (!elements.isEmpty()) {
for (Element tittle : elements) {
Element first = tittle.select("a[href]").first();
if (first != null) {
title = first.text();
titleUrl = first.attr("href");
System.out.println("名称:" + title);
System.out.println("详细地址:" + titleUrl);
}

Elements select1 = tittle.select("a.tags");
if (!select1.isEmpty()) {
tag = select1.text();
tagUrl = select1.attr("href");
System.out.println("tags:" + tag);
System.out.println("tagUrl:" + tagUrl);
}
}
}

嵌套解析

到这里。

<div>
<a>
标签的介绍基本搞定。接下来就是
<div class="desc">
的解析了。

<div class="desc">
<p>A single adapter for the whole project.</p>
<ul>
<li>Now you do not need to implement adapters for RecyclerView.</li>
<li>You can easily use several types of cells in a single list.</li>
<li>Using this library will protect you from the appearance of any business logic in an adapter.</li>
</ul>
</div>

这里又多了

<ul>
<li>
了。事实上道理是几乎相同的,可是这里它们既没有
class
也没有
id
。那这个我们应该这么去解析呢?

这里还是要回到

select()
方法,这里就须要使用到指定层级的方法了。

Elements select1 = e.select("div.desc > p");
String s = select1.toString();

对于

<dt>
<dd>
相关的标签,就能够使用
+
相关的连接符了。比如我想要仅仅解析
Tag
以下的相应的
Tag
名称和相关的
url
,这个应该怎么写呢?

<dt>Tag</dt>
<dd><a href="/tag/9">Background Processing</a></dd>
<dt>License</dt>
<dd><a href="http://opensource.org/licenses/Apache-2.0" rel="nofollow" target="_blank">Apache License, Version 2.0</a>
</dd>

代码就是这种,这里一不小心就又引出了

select()
方法的嵌套高级写法。

Elements select4 = element.select("dt:contains(Tag) + dd");

事实上不用太多解释啦。截图里面描写叙述的非常清楚了。最后一个是能够支持正则的匹配。

同级相邻解析

另一种情况就是我们须要的标签没有详细的

id
或者
class
,而且它没有直接相应的父标签或者某种固定的嵌套关系,比如以下这种情况:

ImmediateLooperScheduler
" data-snippet-id="ext.2bc5ebe9840f0e244465396f590a3cf3" data-snippet-saved="false" data-codota-status="done">[code]<a id="favoriteButton" href="#" class="fa fa-star-o favorite tshadow" title="Add to favorites"></a>
<a href="/details/1/5244">ImmediateLooperScheduler</a> <div id="githubInfoValue">

这里我们仅仅须要解析到第二个

<a>
标签,那么须要怎么处理呢?这里就须要使用到
nextElementSibling()
的方法了。

Element ssa = h1.select("a#favoriteButton").first();
Element element = ssa.nextElementSibling();
String title = element.text();

模糊解析

有时候我们仅仅知道这个

<div>
是以 什么开头或者是以什么结尾或者又是里面包括了某个单词的,那么这个时候就须要使用模糊查找了。

Jsoup
中定义了这些情况的相关
select()
写法,当中。以什么开头。是使用
a[href^=http]
,以什么结尾使用
a[href$=.jpg]
,包括什么就是使用
a[href*=/search/]

javascript 解析

刚刚说的都是普通标签及其内容,假设我要获取js相关的标签以及内容呢?事实上也不难,仅仅是最后不是使用text()的方法。而是使用data()的方法了。

就是

Jsoup
最基本的就是写好这个
select()
方法,

final Elements script = document.select("script");

String js = script.first().data();

相关实战

Android-Arsenal 这个站点不造大家伙儿有听说过没?这里给我们Android开发人员提供了了一个信息交流展示平台。实时更新一些Android相关的App,开发库、以及Demo。然后。我看到它也有自己的client,所以一时好奇也打算下载下来看看。结果,client就是直接载入的网页,关键是广告满天飞。这个就让人不好受了(话说回来,人家不打广告赚点儿钱做这个平台干嘛呢。)

所以灵机一动。为什么我不自己搞一个

Android-Arsenal
的client呢?这样方便在手机上看到最新的东西嘛。所以就做了一个client。而使用的就是
Jsoup
来爬去的相应的网页。然后就把相应
ads
的标签都过滤了,所以是非常清爽的啦。

当然功能也仅仅是先实现了一部分。喜欢的朋友能够点个星星或者下载使用哟。

最后来一波效果图:

项目地址:https://github.com/lovejjfg/Android-Arsenal

—- Edit By Joe At 2017 03 18 —-

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: