您的位置：首页 > 其它

正则表达式抽取网页内容

2016-04-14 15:31 246 查看

之前使用的是webCollector爬虫，里面有regex(regex)方法用正则表达式来抽取获取的网页中的内容，后来发现爬取的网页基本上可以找到请求json接口的地址，那可以请求一次然后直接去解析就好了，用不上爬虫框架的一些功能，用爬虫反而时间会更久，于是老大用HttpClient写了一个获取页面的功能。json可以使用fastJson来进行解析，页面可以用Jousp来解析，有的json数据在网页中的js变量中，不好获取，但是用正则抽取的话会很方便，使用方法如下:

String regex = "pagedata=.*;";
Pattern pattern = Pattern.compile(regex);
Matcher matcher = pattern.matcher(html);
matcher.find();
String regexStr = matcher.group(0);

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航