您的位置:首页 > 编程语言 > Java开发

WebCrawler Java小爬爬 从入门到放弃 第三章

2016-09-24 21:59 260 查看
正则表达式:

我们已经会了最简单,也是最基础的如何提取网页内容。

接下来就是从中筛选我们想要的内容。

正则表达式,又称规则表达式。(英语:Regular Expression,在代码中常简写为regex、regexp或RE),计算机科学的一个概念。正则表通常被用来检索、替换那些符合某个模式(规则)的文本。

对regex先进行简单的了解,推荐一个网站:

http://tool.chinaz.com/regex/

Java里封装了两个类Pattern和Matcher,用于匹配正则表达式。

建议先看下API文档,推荐个博主写的关于这两个类的说明:

http://blog.csdn.net/cclovett/article/details/12448843

我们先进行一个简单的测试:

我们选择CSDN极客头条的第一个链接:

http://www.jianshu.com/p/d0aacb6f0455

然后用正则匹配我们想要的正文。

用FireFox打开链接,按F12如下图



然后敲代码 测试

import java.io.*;
import java.net.*;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class test {
public test(){
BufferedReader in = null;
URL realURL;
String urlContent = "";
try {
realURL = new URL("http://www.jianshu.com/p/d0aacb6f0455");
//获取网页链接
URLConnection connection = realURL.openConnection();
connection.connect();
//缓冲流读入
in = new BufferedReader(new InputStreamReader(
connection.getInputStream(), "UTF-8"));
String line;
//用while循环将缓冲区内容写到字符串里
while(null != (line = in.readLine())){urlContent += line;}
//进行正则匹配  正则语句: meta charset=\"(.+?)\">
Pattern p = Pattern.compile("meta charset=\"(.+?)\">");
Matcher m = p.matcher(urlContent);
m.find();
//打印当前网页字符集格式
System.out.println(realURL.toString()+" charset is " + m.group(1));
} catch (MalformedURLException e) {
// TODO Auto-generated catch block
e.printStackTrace();
} catch
4000
(IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
public static void main(String[] args){
new test();
}
}


测试完成。

了解下JS里的标记 有时候我们匹配的信息需要用控制符替换掉这些标记

博主十一要认真学学JS,有些地方有问题。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: