您的位置:首页 > 编程语言 > Java开发

抓取网页文件中的email地址的简易java程序

2011-08-11 11:03 471 查看
 
我们可以先下载一个网页文件在自己的硬盘上,然后通过URL地址读取文件,利用这则表达式一一对比所读出的字符串是否是email地址,实现抓取!传说的垃圾邮件首先就是要先再网页中抓取别人的email地址,具体的小程序如下:

import java.io.BufferedReader;

import java.io.FileNotFoundException;

import java.io.FileReader;

import java.io.IOException;

import java.util.regex.Pattern;

import java.util.regex.*;

public class Spider {

 public static void main(String[] args) {

  try {

   BufferedReader buf = new BufferedReader(new FileReader("F:\\a.mht"));

   String line = "";

   while ((line = buf.readLine()) != null)

    pattern(line);

  } catch (FileNotFoundException e) {

   // TODO Auto-generated catch block

   e.printStackTrace();

  } catch (IOException e) {

   // TODO Auto-generated catch block

   e.printStackTrace();

  }

 }

 private static void pattern(String line) {

  Pattern p = Pattern.compile("[\\w[._]]+@[\\w[._]]+\\.[\\w]+");//email地址的正则表达式;

  Matcher m = p.matcher(line);

  while(m.find()){

   System.out.println(m.group());

  }

  /*while(p.matcher(line)!=null){

   

  }*/

 }

}
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息