您的位置：首页 > 理论基础 > 计算机网络

网络爬虫学习笔记———网页源码下载之get方法

2016-11-17 22:36 886 查看

请求网页的方式主体有两种，一种是get方法，一种是post方法。正如这两个单词明面上的意思，一个是单纯地从网页中获取源码，另一种需要传递正确的参数后才能返回正确的源码。如图所示，我们可以利用F12观察的方法来查看具体是哪种请求。

下面是post方法。

怎样通过程序去模拟这个过程呢，Apache给我们提供了一系列的方法。http://hc.apache.org/网址下提供了我们需要的主体的架包，网站上也包含了其他很有用的工具，可以根据需要选择使用。主体使用的架包为：

下面写一个简单get方法实现的请求。

import java.io.IOException;

import org.apache.http.HttpEntity;
import org.apache.http.HttpResponse;
import org.apache.http.ParseException;
import org.apache.http.client.ClientProtocolException;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;

/******
*
* @author luffy
* @deprecated 简单的get请求方法
*/
public class Test {

public static void main(String[] args){

CloseableHttpClient httpClient=HttpClients.createDefault();//类似于浏览器核心的工具，是获取源码的主要工具

HttpGet getmethod = new HttpGet("http://www.csdn.net/");//定义获取的GET方法

HttpResponse httpresponse = null;

try {

httpresponse = httpClient.execute(getmethod);//开始获取源码，返回的结果除了源码外，还有其他一些信息

} catch (ClientProtocolException e) {
// TODO Auto-generated catch block
e.printStackTrace();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}

HttpEntity entity = httpresponse.getEntity();//从结果中获取源码的实体

String out = "";

try {
out = EntityUtils.toString(entity);//将源码实体转化为字符串
} catch (ParseException e) {
// TODO Auto-generated catch block
e.printStackTrace();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}

System.out.print(out);

}
}

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 网络爬虫

相关文章推荐

新的分享

章节导航