自己写的一个抓取页面email地址的小程序
2013-01-17 16:19
337 查看
媳妇的工作需要群发邮件,见她一个一个的复制粘贴,有些不忍,编写了一个邮箱批量抓取的小程序,对她的工作有些小帮助。
抓取页面的emal地址,只需要两个步骤,1,通过url地址抓取页面信息,2,从页面信息中提取emal地址。下面奉上代码;
抓取页面的emal地址,只需要两个步骤,1,通过url地址抓取页面信息,2,从页面信息中提取emal地址。下面奉上代码;
public static string GetHtml(string url) { string html = ""; try { WebClient MyWebClient = new WebClient(); Encoding utf8 = Encoding.UTF8; Encoding defaultCode = Encoding.Default; MyWebClient.Credentials = CredentialCache.DefaultCredentials;//获取或设置用于对向Internet资源的请求进行身份验证的网络凭据。 Byte[] pageData = MyWebClient.DownloadData(url);//从指定网站下载数据 string pageHtml = Encoding.Default.GetString(pageData); string Encodeing = getEncoding(pageHtml); if (Encodeing != "GB2312" && Encodeing != "GBK") { byte[] defaultBytes = Encoding.Convert(utf8, defaultCode, pageData); pageHtml = Encoding.Default.GetString(defaultBytes); //如果获取网站页面采用的是GB2312,则使用这句 } html = pageHtml; } catch (WebException webEx) { Console.WriteLine(webEx.Message.ToString()); } return html; }
public static string getEncoding(string html) { Match match = Regex.Match(html, "charset=(?'ecncoding'.*[\\d|k|K])\""); GroupCollection groups = match.Groups; string ecncoding = groups["ecncoding"].Value; return ecncoding.ToUpper(); } protected void btnOk_Click(object sender, EventArgs e) { lstEmails.Items.Clear(); string html = GetHtml(this.txturl.Text.Trim()); string reg = @"[a-zA-Z0-9_\-\.]+@\w+(\.\w+)+";//匹配Email的正则表达式 MatchCollection matchs = Regex.Matches(html, reg);foreach (Match ms in matchs) { txtEmails.Items.Add(new ListItem(ms.Value+",\r\n")); } }
GetHtml()方法用来抓取页面信息。getEncoding()获取页面编码
相关文章推荐
- 自己用C#开发的EMAIL地址抓取程序。
- 网址重写 由一个任意或是自己定义的地址转到指定的处理程序 4000 上来
- 抓取网页文件中的email地址的简易java程序
- Java写的抓取任意网页中email地址的小程序
- ajax页面跳转(后台返回的是一个url地址,或者自己传进去的是url地址)
- 抓取网页文件中的email地址的简易java程序
- 简单小程序-抓取网页中的email地址。
- 自己做一个网页爬虫用来抓取一个网站的地址
- 做一个自己的 在线收藏夹--把当前浏览的页面的地址和标题提交到指定的url
- 一个极其简洁的Python网页抓取程序,自己主动从雅虎財经抓取股票数据
- 自己写的用JS脚本定时执行Web地址并且得到它的源代码的页面程序
- 自己写的一个正则表达式抓取页面内容
- 写一个Email地址校验程序
- 自己在之前做两个项目中遇到多线程并发访问如何解决的一个简单demo程序
- Ajax (部分一)自己做的,总结页面向后台传Form值、单个值和后台向前台传一个或是一组值
- NET简单的一个画图程序 使用简单 自己可以相关自己的内容进行配置就可以使用了
- 自己写的一个js获取首页地址(路径)的方法
- 当用户输入一个url地址后,到看到页面的过程,期间发生了什么?
- ADC0832的C程序(我怎么感觉网上的各种坑爹,还是自己YY了一个)
- 自己刚学单片机的时候写的一个电子表的程序。