您的位置：首页 > 理论基础 > 计算机网络

网络编程笔记二：一个java爬虫的实现（静态页面）

2016-09-30 22:06 741 查看

这一份博客直接贴代码了，因为：），作为平时的学习我习惯写完代码后反观一次，做比较详细的注释。

在这里BB一句，有时候我们学点东西之前总会正儿八经正襟危坐地问啊问啊“怎么入门怎么入门怎么入门呢”。个人有点小感慨：边学边做就是很好的开始，特别是有一个任务有一个目的地学习，知识就是个无向循环图，你可能会为了一个任务，不说“学到”，你也会接触到很多其它方面的知识，你以前学过的东西也都铺垫成你追求其它知识的道路。所以不要再喊着“入门”了直接上路吧！

比如说，下面我们来爬取豆瓣影评（静态页面，即还不去处理由js来承载的评论），然后我们就接触到了一点服务端与客户端交互的知识，一点有关于java流的东西，一点正则的东西 (每一个这样的括号（.*?)都对应了要提取的部分）

import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.net.URL;
import java.net.URLConnection;
import java.util.ArrayList;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class Spider {

public static String SendGet(String url, String decode){
//定义一个字符串用来存储网页内容
String result = "";
//定义一个缓冲字符输入流
BufferedReader in = null; //为什么要用buffered，因为是可追加的。为什么不用byte，因为是定长的。若未超长则可追加，若超长了则不能追加
try{
//将string 转成url对象
URL realUrl = new URL(url);
//初始化一个链接到那个url的连接
URLConnection connection = realUrl.openConnection();
//开始实际的连接
connection.connect();
//初始化bufferedReader输入流来读取url的响应
in = new BufferedReader(new InputStreamReader(
connection.getInputStream(), decode));
//用来临时存储抓取到的每一行数据
String line;
while((line = in.readLine()) != null){
//遍历抓取到的每一行都放到result中去
result += line;
}
} catch (Exception e){
System.out.println("something wrong when sending GET requirement! " +e);
e.printStackTrace();
}
//无论成功与否，用finally来关闭输入流
finally{
try{
if(in != null){
in.close();
}
} catch(Exception e2){
e2.printStackTrace();
}
}
return result;
}

public static String RegexString(String targetStr, String patternStr){
//定义一个样式模板，此中使用正则表达式，括号中是要抓的内容
Pattern pattern = Pattern.compile(patternStr);
//定义一个matcher用来做匹配
Matcher matcher = pattern.matcher(targetStr);
if(matcher.find()){
String res = "";
for(int i = 0; i <= matcher.groupCount(); i ++){
res = res + matcher.group(i) + " ";
}
return res;
}
return "Nothing";
}

public static void GetDouBan(String content){
//ArrayList<douban> results = new ArrayList<douban>();
Pattern pattern = Pattern.compile("subject-title.*?>(.*?)<.*?allstar(.*?)0 main-title-rating.*?short-content\">(.*?)<"); //正则表达式匹配我们需要的地方
Matcher matcher = pattern.matcher(content);
boolean isfind = matcher.find();
while(isfind){
//group(0）取出的是全部内容
System.out.println("name: " + matcher.group(1));
System.out.println("score: " + matcher.group(2));
System.out.println("comment: " + matcher.group(3));
isfind = matcher.find();
}

}
/**/
public static void main(String[] args) {

String url = "https://movie.douban.com/review/best/";
String result = SendGet(url, "utf-8");
GetDouBan(result);

}

}

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航