使用Jsoup登录网站抓取网页内容
2015-10-13 09:49
519 查看
Jsoup可以很方便的模拟浏览器登录,然后根据登录获得sessionid继续做请求来抓取网页的内容。登录的示例代码如下:
Connection.Responseres=Jsoup.connect("http://www.example.com/login.php")
.data("username","myUsername","password","myPassword")
.method(Method.POST)
.execute();
Documentdoc=res.parse();
//这儿的SESSIONID需要根据要登录的目标网站设置的sessionCookie名字而定
StringsessionId=res.cookie("SESSIONID");在上面的代码成功登录后,就可以利用登录的cookie来保持会话,抓取网页内容了
DocumentobjectDoc=Jsoup.connect("http://www.example.com/otherPage")
.cookie("SESSIONID",sessionId)
.get();
相关文章推荐
- 【开源】.net 分布式架构之业务消息队列
- Web开发人员必读的12个网站
- 第22期JEECG架构培训班马上报名啦,每期十个名额,15号开班!
- Web开发人员必读的12个网站
- Web开发人员必读的12个网站
- 各大门户网站的css初始化代码
- 常用的网站网址
- MySQL高可用集群
- 站长必须知道这些有利于SEO的网站
- 网站关键词优化--是何因素6导致关键词排名的下降
- 轻量级企业服务总线(简称 ZR-ESB)是国内首款基于B/S架构,采用 NodeJS 技术实现
- 更换网站空间与域名对SEO优化有影响吗?
- vs三层架构解决方案问题
- 游戏系统开发笔记(六)——服务端架构设计
- P2P太假了,光有网站平台,连人都找不着了,更不用说网站大漏洞没人管,呵呵
- Exchange2016 高可用性配置及介绍
- 一些值得去看的技术分享网站
- 各大网站CSS代码初始化集合
- Lucene的总体架构
- Mysql+Heartbeat+Drbd生产环境高可用部署若干问题解惑