正则表达式:网页爬虫
2014-04-26 22:29
531 查看
这是对正则表达式的一个小应用,爬取指定网页的指定内容。这里用的是一个博客网页,抓取邮箱到集合里。
import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.net.URL; import java.util.ArrayList; import java.util.List; import java.util.regex.Matcher; import java.util.regex.Pattern; public class RegexDemo2 { /** * @param args * @throws IOException */ /* * 网页爬虫:其实就一个程序用于在互联网中获取符合指定规则的数据。 爬取邮箱地址。 */ public static void main(String[] args) throws IOException { List<String> list = getMailsByWeb(); for (String mail : list) { System.out.println(mail); } } public static List<String> getMailsByWeb() throws IOException { URL url = new URL("http://blog.sina.com.cn/s/blog_515617e60101e151.html"); BufferedReader bufIn = new BufferedReader(new InputStreamReader( url.openStream())); // 对读取的数据进行规则的匹配。从中获取符合规则的数据. String mail_regex = "\\w+@\\w+(\\.\\w+)+"; List<String> list = new ArrayList<String>(); Pattern p = Pattern.compile(mail_regex); String line = null; while ((line = bufIn.readLine()) != null) { Matcher m = p.matcher(line); while (m.find()) { // 3,将符合规则的数据存储到集合中。 list.add(m.group()); } } return list; } }
相关文章推荐
- 正则表达式—网页爬虫
- 正则表达式实例 网页爬虫抓取页面邮箱地址
- 网页爬虫1--正则表达式
- Node做网页爬虫时遇到的Html entites对象造成乱码
- Python爬虫实战--(三)获取网页中的动态数据
- python3 网页爬虫图片下载无效链接处理 try except
- 网页爬虫
- 黑马程序员-正则表达式、网页爬虫
- 网页爬虫--scrapy进阶
- Python 网页爬虫
- CNKI网页爬虫
- 网页爬虫的设计与实现(Java版)
- 尝试使用python做一个网页爬虫
- 抓取教程网页的小爬虫
- python爬虫抓网页的总结
- Python爬虫实战(4):豆瓣小组话题数据采集―动态网页
- python-常用小程序-网页爬虫
- 【抢课】用Python网页爬虫来进行选(qiang)课
- Python编写网页爬虫爬取oj上的代码信息
- Python爬虫入门(爬取某网页财经部分股票数据)