(104)网页爬虫
2017-07-30 12:00
232 查看
因为还没有学网络,所以就在一个文件中寻找符合规则的邮箱
import java.io.*; import java.util.regex.Matcher; import java.util.regex.Pattern; public class demo2 { public static void main(String[] args)throws Exception { BufferedReader bufr=new BufferedReader(new FileReader("e:\\mail.txt")); String line=null; String regex="[a-zA-Z0-9_]+@[a-zA-Z0-9_]+(\\.[a-zA-Z]+){1,3}"; Pattern p=Pattern.compile(regex); while((line=bufr.readLine())!=null) { Matcher m=p.matcher(line); while(m.find()) { System.out.println(m.group()); } } } }
相关文章推荐
- Java网页爬虫utf-8
- 网页爬虫抓取URL
- 爬虫抓取网页来下载小说
- python-爬虫-自带库抓取网页内容
- (转)网页爬虫
- 【Java Utility】Jsoup网页爬虫工具--设置Element的HTML内容【十二】
- Python网页爬虫(一)
- golang解析网页的第三方包——goquery(爬虫必备) 标签: goquerygo页面解析爬虫
- Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱
- 美股网页表格数据爬虫设计
- 网页爬虫,HttpClient+Jericho HTML Parser 实现网页的抓取
- 演示利用爬虫监测网页评论
- Python 简单网页爬虫学习
- 基于C#实现网络爬虫 C#抓取网页Html源码
- 简单的爬行--静态网页爬虫+下一篇实例
- 网页爬虫的构建(一)
- Python3.5 爬虫之由浅入深(二、get多个网页)
- 【爬虫系列】第二部分 网页解析Jsoup
- 关于使用httpclient类库写的爬虫抓取网页时返回403错误
- Python 爬虫 使用正则去掉不想要的网页元素