您的位置:首页 > 其它

正则表达式抽取网页内容

2016-04-14 15:31 246 查看
之前使用的是webCollector爬虫,里面有regex(regex)方法用正则表达式来抽取获取的网页中的内容,后来发现爬取的网页基本上可以找到请求json接口的地址,那可以请求一次然后直接去解析就好了,用不上爬虫框架的一些功能,用爬虫反而时间会更久,于是老大用HttpClient写了一个获取页面的功能。json可以使用fastJson来进行解析,页面可以用Jousp来解析,有的json数据在网页中的js变量中,不好获取,但是用正则抽取的话会很方便,使用方法如下:

String regex = "pagedata=.*;";
Pattern pattern = Pattern.compile(regex);
Matcher matcher = pattern.matcher(html);
matcher.find();
String regexStr = matcher.group(0);
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: