您的位置：首页 > 理论基础 > 计算机网络

用HttpClient实现网络爬虫

2016-07-28 12:17 417 查看

上一篇爬虫之jsoup入门指南中，已经能够非常便捷的实现网络爬虫
但是，在那之前，尝试了一下用HttpClient实现网络爬虫
在此记录一下
HttpClient client = new HttpClient();
GetMethod get = new GetMethod("url");//
传入url，创建一个get请求,方法体内部应该就是初始化http


// 协议吧，具体的没去看源码
int status = client.excuteMethod(get);
if (status = HttpStatus.SC_OK) {

//请求成功

    String
html = get.getResponseBodyAsString();// 此时已经获取到页面的内容

String[] rowContents = html.split("\n");// 用换行符将页面截断，方便解析
    //
解析的方式可以自己想，由于前段时间第一次接触爬虫，所以处理方式有点二。。。
   for (String rowContent :
rowContents) {


if (rowContent.contains("http://")) {// 当前行包含http链接的话，就打印出来


System.out.println(rowContent);


}
    }
   //
也可以将当前请求的页面存起来，慢慢分析，想一个好的解析办法

FileWriter write = new FileWriter("../../page.html");

write.writer(html, 0, html.length());

writer.flush();

writer.close();

return;
}

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航