php 根据标签的属性值来爬取内容的正则表达式
2017-08-03 12:06
645 查看
最近在学着做数据爬虫,经常遇到的一个问题是,经常要根据某个标签的属性值来获取该表下面的内容,
后来找到了一个封装的方法,挺好用的,下面看代码:
/**
* $html-需要爬取的页面内容
* $tag-要查找的标签
* $attr-要查找的属性名
* $value-属性名对应的值
*/
public function get_tag_data($html,$tag,$attr,$value){
$regex = "/<$tag.*?$attr=\".*?$value.*?\".*?>(.*?)<\/$tag>/is";
preg_match_all($regex,$html,$matches,PREG_PATTERN_ORDER);
return $matches[1];
}
DONE!!!!!
后来找到了一个封装的方法,挺好用的,下面看代码:
/**
* $html-需要爬取的页面内容
* $tag-要查找的标签
* $attr-要查找的属性名
* $value-属性名对应的值
*/
public function get_tag_data($html,$tag,$attr,$value){
$regex = "/<$tag.*?$attr=\".*?$value.*?\".*?>(.*?)<\/$tag>/is";
preg_match_all($regex,$html,$matches,PREG_PATTERN_ORDER);
return $matches[1];
}
DONE!!!!!
相关文章推荐
- PHP实现通过正则表达式替换回调的内容标签
- PHP实现通过正则表达式替换回调的内容标签
- php过滤html标签正则表达式
- 微博内容正则表达式匹配链接, 话题标签与@用户
- php正则表达式获取内容所有链接
- php正则表达式获取表格内容
- [python]根据正则表达式提取指定的内容
- 微博内容正则表达式匹配链接, 话题标签与@用户
- php获取超链接文本内容的正则表达式(五种方法)
- 使用java正则表达式过滤HTML ,获取<body>标签中的内容解决思路
- php正则选择某个值的标签内容
- 微博内容正则表达式匹配链接, 话题标签与@用户
- php获取超链接文本内容的正则表达式(五种方法)
- 解析php利用正则表达式解决采集内容排版的问题
- PHP正则表达式替换所有HTML标签
- php正则选择某个值的标签内容
- 用正则表达式改变或清除页面超链接标签url内容
- 微博内容正则表达式匹配链接, 话题标签与@用户