您的位置:首页 > 运维架构 > 网站架构

使用Jsoup登录网站抓取网页内容

2015-10-13 09:49 519 查看
Jsoup可以很方便的模拟浏览器登录,然后根据登录获得sessionid继续做请求来抓取网页的内容。登录的示例代码如下:
Connection.Responseres=Jsoup.connect("http://www.example.com/login.php")
.data("username","myUsername","password","myPassword")
.method(Method.POST)
.execute();
Documentdoc=res.parse();
//这儿的SESSIONID需要根据要登录的目标网站设置的sessionCookie名字而定
StringsessionId=res.cookie("SESSIONID");
在上面的代码成功登录后,就可以利用登录的cookie来保持会话,抓取网页内容了
DocumentobjectDoc=Jsoup.connect("http://www.example.com/otherPage")
.cookie("SESSIONID",sessionId)
.get();

                                            
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: