网络爬虫学习笔记———网页源码下载之get方法
2016-11-17 22:36
886 查看
请求网页的方式主体有两种,一种是get方法,一种是post方法。正如这两个单词明面上的意思,一个是单纯地从网页中获取源码,另一种需要传递正确的参数后才能返回正确的源码。如图所示,我们可以利用F12观察的方法来查看具体是哪种请求。
下面是post方法。
怎样通过程序去模拟这个过程呢,Apache给我们提供了一系列的方法。http://hc.apache.org/网址下提供了我们需要的主体的架包,网站上也包含了其他很有用的工具,可以根据需要选择使用。主体使用的架包为:
下面写一个简单get方法实现的请求。
import java.io.IOException;
import org.apache.http.HttpEntity;
import org.apache.http.HttpResponse;
import org.apache.http.ParseException;
import org.apache.http.client.ClientProtocolException;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;
/******
*
* @author luffy
* @deprecated 简单的get请求方法
*/
public class Test {
public static void main(String[] args){
CloseableHttpClient httpClient=HttpClients.createDefault();//类似于浏览器核心的工具,是获取源码的主要工具
HttpGet getmethod = new HttpGet("http://www.csdn.net/");//定义获取的GET方法
HttpResponse httpresponse = null;
try {
httpresponse = httpClient.execute(getmethod);//开始获取源码,返回的结果除了源码外,还有其他一些信息
} catch (ClientProtocolException e) {
// TODO Auto-generated catch block
e.printStackTrace();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
HttpEntity entity = httpresponse.getEntity();//从结果中获取源码的实体
String out = "";
try {
out = EntityUtils.toString(entity);//将源码实体转化为字符串
} catch (ParseException e) {
// TODO Auto-generated catch block
e.printStackTrace();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
System.out.print(out);
}
}
下面是post方法。
怎样通过程序去模拟这个过程呢,Apache给我们提供了一系列的方法。http://hc.apache.org/网址下提供了我们需要的主体的架包,网站上也包含了其他很有用的工具,可以根据需要选择使用。主体使用的架包为:
下面写一个简单get方法实现的请求。
import java.io.IOException;
import org.apache.http.HttpEntity;
import org.apache.http.HttpResponse;
import org.apache.http.ParseException;
import org.apache.http.client.ClientProtocolException;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;
/******
*
* @author luffy
* @deprecated 简单的get请求方法
*/
public class Test {
public static void main(String[] args){
CloseableHttpClient httpClient=HttpClients.createDefault();//类似于浏览器核心的工具,是获取源码的主要工具
HttpGet getmethod = new HttpGet("http://www.csdn.net/");//定义获取的GET方法
HttpResponse httpresponse = null;
try {
httpresponse = httpClient.execute(getmethod);//开始获取源码,返回的结果除了源码外,还有其他一些信息
} catch (ClientProtocolException e) {
// TODO Auto-generated catch block
e.printStackTrace();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
HttpEntity entity = httpresponse.getEntity();//从结果中获取源码的实体
String out = "";
try {
out = EntityUtils.toString(entity);//将源码实体转化为字符串
} catch (ParseException e) {
// TODO Auto-generated catch block
e.printStackTrace();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
System.out.print(out);
}
}
相关文章推荐
- 网络爬虫学习笔记——GET方法下几种常用情况
- 三种方法实现网页下载-(慕课网学习笔记)
- c#下载网页源码的两种方法
- java学习笔记:getPath取路径文件夹中有空格的处理方法
- javascript学习笔记——chrome等提示找不到“getElementsByTagName”的一种解决方法
- MyBatis源码学习笔记(一)MyBatis源码下载
- FC网络学习笔记02 -网络配置方法
- 学习笔记---取得枚举项的2种方法: Enum.GetValues()-Array.GetValue()和Enum.GetNames()-Enum.Parse()
- C#下载网页源码的方法
- PHP学习笔记,curl,file_get_content,include和fopen四种方法获取远程文件速度测试.
- android 学习笔记二(android 源码下载)
- FC网络学习笔记02 -网络配置方法
- Linux获取网页源码的几种方法 linux爬虫程序
- Mjpeg-streamer源码学习笔记-Main-get_long(一)
- C#学习笔记: 关于get和set方法
- Python学习笔记之网络爬虫
- 黑马程序员之ASP.NET学习笔记: Http方法:Get请求与Post请求的区别
- C#网页爬虫学习笔记(1)
- FC网络学习笔记02 -网络配置方法
- FC网络学习笔记02 -网络配置方法 分类: 网络基础 2013-10-10 09:43 765人阅读 评论(0) 收藏