正则表达式提取HTML页面的特定部分
2009-12-06 17:41
375 查看
从HTML页面提取内容所面临的主要问题是,我们必须寻找一种方法精确地识别出自己想要的那一部分内容。例如,下面是一个显示新闻标题的HTML代码片断:
<table border="0" width="11%" class="Somestory">
<tr>
<td width="100%">
<p align="center">其他内容...</td>
</tr>
</table>
<table border="0" width="11%" class="Headline">
<tr>
<td width="100%">
<p align="center">伊拉克战争!</td>
</tr>
</table>
<table border="0" width="11%" class="Someotherstory">
<tr>
<td width="100%">
<p align="center">其他内容...</td>
</tr>
</table>
?观察上述代码,很容易看出新闻标题由位于中间的表格显示,它的class属性设置为Headline。如果HTML页面非常复杂,使用Microsoft IE从5.0开始提供的一项附加功能可以只查看被选中部分页面的HTML代码,请访问http://www.microsoft.com/Windows/ie/WebAccess/default.ASP了解详情。对于本例,我们假定这是唯一class属性设置为Headline的表格。现在我们要创建正则表达式,通过正则表达式找到这个Headline表格并把这个表格包含到自己的页面中。首先是编写支持正则表达式的代码:
<%
Dim re, strHTML
Set re = new RegExp ' 创建正则表达式对象
re.IgnoreCase = true
re.Global = false ' 第一次匹配之后结束查找
%>
下面考虑一下我们要提取的区域:在这里,我们要提取的是整个<table>结构,包括结束标记和新闻标题的文本。因此查找的起始字符应该是<table>开始标记: re.Pattern = "<table.*(?=Headline)"。这个正则表达式匹配表格的开始标记,能够返回开始标记直至“Headline”之间的所有内容(换行除外)。下面是返回已匹配HTML代码的方法:
' 把所有匹配的HTML代码放入Matches集合
Set Matches = re.Execute(strHTML)
' 显示所有匹配的HTML代码
For Each Item in Matches
Response.Write Item.Value
Next
' 显示其中一项
Response.write Matches.Item(0).Value
运行这段代码处理前面显示的HTML片断,正则表达式返回一次匹配的内容如下: <table border="0" width="11%" class="。正则表达式中的“(?=Headline)”没有获取字符,所以不能看到表格class属性的值。要获取表格剩余部分的代码也相当简单: re.Pattern = "<table.*(?=Headline)(.|\n)*?</table>"。其中:“(.|\n)”后面的“*”匹配0个到多个任意字符;而“?”使得“*”匹配范围最小化,即在找到表达式的下一部分之前匹配尽可能少的字符。</table>是表格的结束标记。
“?”限制符非常重要,它防止了表达式返回其他表格的代码。例如对于前面给出的HTML代码片断,如果删除这个“?”则返回内容将是:
<table border="0" width="11%" class="Headline">
<tr>
<td width="100%">
<p align="center">伊拉克战争!</td>
</tr>
</table>
<table border="0" width="11%" class="Someotherstory">
<tr>
<td width="100%">
<p align="center">其他内容...</td>
</tr>
</table>
返回的内容不仅包含了Headline表的<table>标记,而且还包含了Someotherstory表格,由此可以看出,这里的“?”是必不可少的。
本例假设了一些相当理想化的前提。实际应用中情况往往要复杂得多,特别是你对正在使用的源HTML代码的编写没有任何影响力时,编写ASP代码尤为困难。最有效的方法是,多花些时间分析待提取内容附近的HTML,经常地测试,确保提取出来的内容正是自己所需要的。另外,应当重视并处理正则表达式不能匹配源HTML页面任何内容的情形。内容的更新可能非常快速,不要只因为别人改变了内容的格式而让自己的页面出现低级可笑的错误。
本文来自CSDN博客,转载请标明出处:http://blog.csdn.net/wuhuiran/archive/2008/08/01/2750765.aspx
<table border="0" width="11%" class="Somestory">
<tr>
<td width="100%">
<p align="center">其他内容...</td>
</tr>
</table>
<table border="0" width="11%" class="Headline">
<tr>
<td width="100%">
<p align="center">伊拉克战争!</td>
</tr>
</table>
<table border="0" width="11%" class="Someotherstory">
<tr>
<td width="100%">
<p align="center">其他内容...</td>
</tr>
</table>
?观察上述代码,很容易看出新闻标题由位于中间的表格显示,它的class属性设置为Headline。如果HTML页面非常复杂,使用Microsoft IE从5.0开始提供的一项附加功能可以只查看被选中部分页面的HTML代码,请访问http://www.microsoft.com/Windows/ie/WebAccess/default.ASP了解详情。对于本例,我们假定这是唯一class属性设置为Headline的表格。现在我们要创建正则表达式,通过正则表达式找到这个Headline表格并把这个表格包含到自己的页面中。首先是编写支持正则表达式的代码:
<%
Dim re, strHTML
Set re = new RegExp ' 创建正则表达式对象
re.IgnoreCase = true
re.Global = false ' 第一次匹配之后结束查找
%>
下面考虑一下我们要提取的区域:在这里,我们要提取的是整个<table>结构,包括结束标记和新闻标题的文本。因此查找的起始字符应该是<table>开始标记: re.Pattern = "<table.*(?=Headline)"。这个正则表达式匹配表格的开始标记,能够返回开始标记直至“Headline”之间的所有内容(换行除外)。下面是返回已匹配HTML代码的方法:
' 把所有匹配的HTML代码放入Matches集合
Set Matches = re.Execute(strHTML)
' 显示所有匹配的HTML代码
For Each Item in Matches
Response.Write Item.Value
Next
' 显示其中一项
Response.write Matches.Item(0).Value
运行这段代码处理前面显示的HTML片断,正则表达式返回一次匹配的内容如下: <table border="0" width="11%" class="。正则表达式中的“(?=Headline)”没有获取字符,所以不能看到表格class属性的值。要获取表格剩余部分的代码也相当简单: re.Pattern = "<table.*(?=Headline)(.|\n)*?</table>"。其中:“(.|\n)”后面的“*”匹配0个到多个任意字符;而“?”使得“*”匹配范围最小化,即在找到表达式的下一部分之前匹配尽可能少的字符。</table>是表格的结束标记。
“?”限制符非常重要,它防止了表达式返回其他表格的代码。例如对于前面给出的HTML代码片断,如果删除这个“?”则返回内容将是:
<table border="0" width="11%" class="Headline">
<tr>
<td width="100%">
<p align="center">伊拉克战争!</td>
</tr>
</table>
<table border="0" width="11%" class="Someotherstory">
<tr>
<td width="100%">
<p align="center">其他内容...</td>
</tr>
</table>
返回的内容不仅包含了Headline表的<table>标记,而且还包含了Someotherstory表格,由此可以看出,这里的“?”是必不可少的。
本例假设了一些相当理想化的前提。实际应用中情况往往要复杂得多,特别是你对正在使用的源HTML代码的编写没有任何影响力时,编写ASP代码尤为困难。最有效的方法是,多花些时间分析待提取内容附近的HTML,经常地测试,确保提取出来的内容正是自己所需要的。另外,应当重视并处理正则表达式不能匹配源HTML页面任何内容的情形。内容的更新可能非常快速,不要只因为别人改变了内容的格式而让自己的页面出现低级可笑的错误。
本文来自CSDN博客,转载请标明出处:http://blog.csdn.net/wuhuiran/archive/2008/08/01/2750765.aspx
相关文章推荐
- 正则表达式提取HTML页面的特定部分
- 如何使用java的正则表达式提取html标签?
- Java正则表达式, 提取双引号中间的部分
- C#正则表达式提取HTML中IMG标签的SRC地址
- 用正则表达式过滤html页面中的标签
- jmeter正则表达式提取器提取特定字符串后的全部内容
- 使用正则表达式操作html标签中的特定属性
- 利用正则表达式提取html中的的Email地址
- Java - 抓取优酷网视频播放页面(使用jsoup解析html,正则表达式处理字符串)
- 手机号正则表达式详解和演示html页面代码 js、html
- 用正则表达式提取单个页面文件里Email地址的简单实现
- 一个通用的php正则表达式匹配或检测或提取特定字符类
- 提取以特定的字符串开头和结尾的正则表达式
- 正则表达式提取HTML中img标签的src地址
- C#正则表达式提取HTML中IMG标签的URL地址
- 通过正则表达式提取HTML正文(java实现)
- asp.net正则表达式提取网页网址、标题、图片实例以及过滤所有HTML标签实例
- .NET用正则表达式从HTML中提取信息
- Python 正则表达式从CSV文件提取特定列
- 【学习python】re 正则表达式匹配特定词性的conll,提取句子主干(主谓宾)