您的位置:首页 > 理论基础 > 计算机网络

用HttpClient实现网络爬虫

2016-07-28 12:17 417 查看
上一篇爬虫之jsoup入门指南中,已经能够非常便捷的实现网络爬虫
但是,在那之前,尝试了一下用HttpClient实现网络爬虫
在此记录一下
HttpClient client = new HttpClient();
GetMethod get = new GetMethod("url");//
传入url,创建一个get请求,方法体内部应该就是初始化http

                                                                 
// 协议吧,具体的没去看源码
int status = client.excuteMethod(get);
if (status = HttpStatus.SC_OK) {
   
//请求成功

    String
html = get.getResponseBodyAsString();// 此时已经获取到页面的内容
   
String[] rowContents = html.split("\n");// 用换行符将页面截断,方便解析
    //
解析的方式可以自己想,由于前段时间第一次接触爬虫,所以处理方式有点二。。。
   for (String rowContent :
rowContents) {

       
if (rowContent.contains("http://")) {// 当前行包含http链接的话,就打印出来

               
System.out.println(rowContent);

       
}
    }
   //
也可以将当前请求的页面存起来,慢慢分析,想一个好的解析办法
   
FileWriter write = new FileWriter("../../page.html");
   
write.writer(html, 0, html.length());
   
writer.flush();
   
writer.close();
   
return;
}
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: