得到一个网页的所有herf 链接代码
2006-10-26 12:55
543 查看
using System.IO;
using System.Text;
using System.Text.RegularExpressions;
using System.Net;
1.先取得网页的原代码
Uri url=new Uri("http://www.blogjava.net/wujun");
HttpWebRequest request=(HttpWebRequest) WebRequest.Create(url);
HttpWebResponse response = (HttpWebResponse)request.GetResponse();
Stream stream = response.GetResponseStream();
StreamReader sr = new StreamReader(stream);
string str=sr.ReadToEnd();
sr.Close();
stream.Close();
response.Close();
得到网页的html源代码以后。再根据源代码分析 所有 <a href ="url"> 最后得到 href后面 url的链接地址
正则表达式
Regex RegExFindHref = new Regex(@"<a/s+([^>]*/s*)?href/s*=/s*(?:""(?<1>[//a-z0-9_][^""]*)""|'(?<1>[//a-z0-9_][^']*)'
|(?<1>[//a-z0-9_]/S*))(/s[^>]*)?>(?<2>.*?)</a>", RegexOptions.Singleline | RegexOptions.IgnoreCase | RegexOptions.Compiled);
循环读出 连接地址
for (Match m = RegExFindHref.Match(str); m.Success; m = m.NextMatch())
{
TextBox1.Text+= m.Groups[1].ToString()+"/n";
}
运行后
TextBox1 将显示分析后的所有网页的连接 :
http://www.dotlucene.net/ http://www.castleproject.org/ http://www.codeplex.com/ http://www.codeproject.com/ http://www.asp.net/ http://www.nhibernate.org/ http://www.blogjava.net/wujun/CommentsRSS.aspx http://www.blogjava.net/wujun/archive/2006/10/23/47150.html#76745 http://www.blogjava.net/wujun/archive/2006/10/23.html http://www.blogjava.net/wujun/archive/2006/10/23/76769.html http://www.blogjava.net/wujun/archive/2006/10/23/76769.html http://www.blogjava.net/wujun/archive/2006/10/23/76769.html#FeedBack http://www.blogjava.net/wujun/admin/EditPosts.aspx?postid=76769 http://www.blogjava.net/wujun/AddToFavorite.aspx?id=76769 http://www.blogjava.net/wujun/archive/2006/10/20.html ......
..............
.........................等等等。。。
using System.Text;
using System.Text.RegularExpressions;
using System.Net;
1.先取得网页的原代码
Uri url=new Uri("http://www.blogjava.net/wujun");
HttpWebRequest request=(HttpWebRequest) WebRequest.Create(url);
HttpWebResponse response = (HttpWebResponse)request.GetResponse();
Stream stream = response.GetResponseStream();
StreamReader sr = new StreamReader(stream);
string str=sr.ReadToEnd();
sr.Close();
stream.Close();
response.Close();
得到网页的html源代码以后。再根据源代码分析 所有 <a href ="url"> 最后得到 href后面 url的链接地址
正则表达式
Regex RegExFindHref = new Regex(@"<a/s+([^>]*/s*)?href/s*=/s*(?:""(?<1>[//a-z0-9_][^""]*)""|'(?<1>[//a-z0-9_][^']*)'
|(?<1>[//a-z0-9_]/S*))(/s[^>]*)?>(?<2>.*?)</a>", RegexOptions.Singleline | RegexOptions.IgnoreCase | RegexOptions.Compiled);
循环读出 连接地址
for (Match m = RegExFindHref.Match(str); m.Success; m = m.NextMatch())
{
TextBox1.Text+= m.Groups[1].ToString()+"/n";
}
运行后
TextBox1 将显示分析后的所有网页的连接 :
http://www.dotlucene.net/ http://www.castleproject.org/ http://www.codeplex.com/ http://www.codeproject.com/ http://www.asp.net/ http://www.nhibernate.org/ http://www.blogjava.net/wujun/CommentsRSS.aspx http://www.blogjava.net/wujun/archive/2006/10/23/47150.html#76745 http://www.blogjava.net/wujun/archive/2006/10/23.html http://www.blogjava.net/wujun/archive/2006/10/23/76769.html http://www.blogjava.net/wujun/archive/2006/10/23/76769.html http://www.blogjava.net/wujun/archive/2006/10/23/76769.html#FeedBack http://www.blogjava.net/wujun/admin/EditPosts.aspx?postid=76769 http://www.blogjava.net/wujun/AddToFavorite.aspx?id=76769 http://www.blogjava.net/wujun/archive/2006/10/20.html ......
..............
.........................等等等。。。
相关文章推荐
- 【小技巧】如何得到一个网页的所有a标记 herf 链接代码
- C#:如何得到一个网页的所有a标记 herf 链接代码
- 利用正则表达式统计代码中的(代码行数,注释行数,空白行数)利用正则表达式获取一个网页中所有的邮箱地址
- Python 网络爬虫 009 (编程) 通过正则表达式来获取一个网页中的所有的URL链接,并下载这些URL链接的源代码
- node.js正则表达式获取网页中所有链接的代码实例
- 一次性设置网页中所有链接均在新窗口中打开的代码? - 落叶的星空的日志 - 网易博客
- [wbia 1.4]修改Heritrix代码得到网页间的链接关系
- QWebView隐藏时使用代码点击网页上的一个链接或按钮无效。
- 使用正则表达式匹配一个网页中的所有超级链接
- 用正则表达式得到一个页面的所有链接
- 一次性设置网页中所有链接均在新窗口中打开的代码
- node.js正则表达式获取网页中所有链接的代码实例
- 用正则表达式得到一个页面的所有链接
- 正则表达式入门知识+用它实现在一个网页中获取所有的链接地址
- [VB.NET]VB.NET中如何向网页提交一个请求,并得到返回的HTML代码?
- Python 网络爬虫 009 (编程) 通过正则表达式来获取一个网页中的所有的URL链接,并下载这些URL链接的源代码
- 提取一个网页内的所有链接
- 解析出一个网页中所有的图片
- php获取网页上所有链接的方法
- 得到一个网页的title