您的位置：首页 > 编程语言 > Java开发

WebCrawler Java小爬爬从入门到放弃第三章

2016-09-24 21:59 260 查看

正则表达式：

我们已经会了最简单，也是最基础的如何提取网页内容。

接下来就是从中筛选我们想要的内容。

正则表达式，又称规则表达式。（英语：Regular Expression，在代码中常简写为regex、regexp或RE），计算机科学的一个概念。正则表通常被用来检索、替换那些符合某个模式(规则)的文本。

对regex先进行简单的了解，推荐一个网站：

http://tool.chinaz.com/regex/

Java里封装了两个类Pattern和Matcher，用于匹配正则表达式。

建议先看下API文档，推荐个博主写的关于这两个类的说明：

http://blog.csdn.net/cclovett/article/details/12448843

我们先进行一个简单的测试：

我们选择CSDN极客头条的第一个链接：

http://www.jianshu.com/p/d0aacb6f0455

然后用正则匹配我们想要的正文。

用FireFox打开链接，按F12如下图

然后敲代码测试

import java.io.*;
import java.net.*;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class test {
public test(){
BufferedReader in = null;
URL realURL;
String urlContent = "";
try {
realURL = new URL("http://www.jianshu.com/p/d0aacb6f0455");
//获取网页链接
URLConnection connection = realURL.openConnection();
connection.connect();
//缓冲流读入
in = new BufferedReader(new InputStreamReader(
connection.getInputStream(), "UTF-8"));
String line;
//用while循环将缓冲区内容写到字符串里
while(null != (line = in.readLine())){urlContent += line;}
//进行正则匹配  正则语句： meta charset=\"(.+?)\">
Pattern p = Pattern.compile("meta charset=\"(.+?)\">");
Matcher m = p.matcher(urlContent);
m.find();
//打印当前网页字符集格式
System.out.println(realURL.toString()+" charset is " + m.group(1));
} catch (MalformedURLException e) {
// TODO Auto-generated catch block
e.printStackTrace();
} catch
4000
(IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
public static void main(String[] args){
new test();
}
}

测试完成。

了解下JS里的标记有时候我们匹配的信息需要用控制符替换掉这些标记

博主十一要认真学学JS，有些地方有问题。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航

WebCrawler Java小爬爬 从入门到放弃 第三章

WebCrawler Java小爬爬从入门到放弃第三章