[转载]C#用正则表达式 获取网页源代码标签的属性或值
2017-03-19 20:30
615 查看
最近调试程序需要用到获取网页指定标签的属性和值,找到了一个比较好的正则匹配方法,特此备份。
[原]C#用正则表达式 获取网页源代码标签的属性或值
整理两个 在C#中,用正则表达式 获取网页源代码标签的属性或值的方法 :
1、获取标签中的值: <a href="www.csdn.net" class="main" >CSDN</a> 结果:CSDN
2、获取标签中的属性: <a href="www.csdn.net" class="main">CSDN</a> 获取 “href” 的结果:www.csdn.net
举例说明
[原]C#用正则表达式 获取网页源代码标签的属性或值
整理两个 在C#中,用正则表达式 获取网页源代码标签的属性或值的方法 :
1、获取标签中的值: <a href="www.csdn.net" class="main" >CSDN</a> 结果:CSDN
/// <summary> /// 获取字符中指定标签的值 /// </summary> /// <param name="str">字符串</param> /// <param name="title">标签</param> /// <returns>值</returns> public static string GetTitleContent(string str, string title) { string tmpStr = string.Format("<{0}[^>]*?>(?<Text>[^<]*)</{1}>", title, title); //获取<title>之间内容 Match TitleMatch = Regex.Match(str, tmpStr, RegexOptions.IgnoreCase); string result = TitleMatch.Groups["Text"].Value; return result; }
2、获取标签中的属性: <a href="www.csdn.net" class="main">CSDN</a> 获取 “href” 的结果:www.csdn.net
/// <summary> /// 获取字符中指定标签的值 /// </summary> /// <param name="str">字符串</param> /// <param name="title">标签</param> /// <param name="attrib">属性名</param> /// <returns>属性</returns> public static string GetTitleContent(string str, string title,string attrib) { string tmpStr = string.Format("<{0}[^>]*?{1}=(['\"\"]?)(?<url>[^'\"\"\\s>]+)\\1[^>]*>", title, attrib); //获取<title>之间内容 Match TitleMatch = Regex.Match(str, tmpStr, RegexOptions.IgnoreCase); string result = TitleMatch.Groups["url"].Value; return result; }
举例说明
string result = GetTitleContent(str, @"a"); //获取指定标签中的值 string result = GetTitleContent(str, @"a",@"href"); //获取指定标签中的指定属性值
相关文章推荐
- C#用正则表达式 获取网页源代码标签的属性或值
- C#用正则表达式 获取网页源代码标签的属性或值
- C#用正则表达式 获取网页源代码标签的属性或值
- C#用正则表达式 获取网页源代码标签的属性或值
- C#用正则表达式 获取标签的属性或值
- C#用正则表达式 获取标签的属性或值
- C#获取网页源代码,去除html标签,提取文字源码
- C# 正则表达式抓取网页上某个标签的内容,并替换链接地址和图片地址
- Python 网络爬虫 009 (编程) 通过正则表达式来获取一个网页中的所有的URL链接,并下载这些URL链接的源代码
- 正则表达式相关:C# 抓取网页类(获取网页中所有信息)
- 正则表达式相关:C# 抓取网页类(获取网页中所有信息)
- C# 正则表达式获取指定标签的内容
- 正则表达式相关:C# 抓取网页类(获取网页中所有信息)
- 获取指定标签的指定属性的正则表达式
- 匹配获取HTML标签属性的正则 表达式
- [转]正则表达式相关:C# 抓取网页类(获取网页中所有信息)
- Python 网络爬虫 009 (编程) 通过正则表达式来获取一个网页中的所有的URL链接,并下载这些URL链接的源代码
- 正则表达式相关:C# 抓取网页类(获取网页中所有信息)
- 正则表达式相关:C# 抓取网页类(获取网页中所有信息)
- C#用正则表达式获取网页中制定位置的内容