用正则表达式得到一个页面的所有链接
2012-12-29 00:06
169 查看
只验证了href的链接,对于<script src=..></script>和<img src="">,mailto都不行,但是可以学一下正则表达式的应用
<html>
<head><title>正则表达式</title></head>
<body>
<a href="./">返回列表</a><br>
<form action="<?echo $PHP_SELF;?>" method="post">
URL:<input type="text" name="url" value="<?echo $url?>"><input type="submit" value="获取所有裢接">
</form>
<?
if(isset($url)){
echo "$url 有下列裢接:<br>";
$fcontents = file($url);
while(list(,$line)=each($fcontents)){
while(eregi('(href[[:space:]]*=[[:space:]]*"?[[:alnum:]:@/._-]+"?)(.*)',$line,$regs)){
$regs[1] = eregi_replace('(href[[:space:]]*=[[:space:]]*"?)([[:alnum:]:@/._-]+)("?)',"2",$regs[1]);
echo " $regs[1]<br>";
$line = $regs[2];
}
}
}
?>
</body>
</html>
<html>
<head><title>正则表达式</title></head>
<body>
<a href="./">返回列表</a><br>
<form action="<?echo $PHP_SELF;?>" method="post">
URL:<input type="text" name="url" value="<?echo $url?>"><input type="submit" value="获取所有裢接">
</form>
<?
if(isset($url)){
echo "$url 有下列裢接:<br>";
$fcontents = file($url);
while(list(,$line)=each($fcontents)){
while(eregi('(href[[:space:]]*=[[:space:]]*"?[[:alnum:]:@/._-]+"?)(.*)',$line,$regs)){
$regs[1] = eregi_replace('(href[[:space:]]*=[[:space:]]*"?)([[:alnum:]:@/._-]+)("?)',"2",$regs[1]);
echo " $regs[1]<br>";
$line = $regs[2];
}
}
}
?>
</body>
</html>
相关文章推荐
- 用正则表达式得到一个页面的所有链接
- 使用正则表达式匹配一个网页中的所有超级链接
- php获取页面所有链接的正则表达式
- Python 网络爬虫 009 (编程) 通过正则表达式来获取一个网页中的所有的URL链接,并下载这些URL链接的源代码
- Python 网络爬虫 009 (编程) 通过正则表达式来获取一个网页中的所有的URL链接,并下载这些URL链接的源代码
- Python抓取页面中超链接(URL)的三中方法比较(HTMLParser、pyquery、正则表达式) <转>
- [导入][原创]使用正则表达式找出HTML代码内所有IMG图片的SRC链接地址
- 使用正则表达式删除某一个html标签内所有属性
- 正则表达式应用--提取CSDN所有下载资源页面URl的思路与代码实现
- F:如何用正则表达式或别的方式将一个所含html元素的所有html元素除掉?
- php正则表达式取得内容所有链接的方法
- 正则表达式 抓取网页面上所有图片
- php正则表达式取得内容所有链接的方法
- 如何用正则表示式获得一个页面内容中所有图片地址
- 通过正则表达式查找一个模式的所有实例
- 使用PHP写出一个正则表达式,过滤网页上的所有js脚本
- Java获取网页所有网址和链接文字(正则表达式)
- 得到页面中的所有链接函数
- (转)Python:正则表达式找出网页上所有链接
- 一条捕获网页中所有链接的正则表达式