正则表达式抽取网页内容
2016-04-14 15:31
246 查看
之前使用的是webCollector爬虫,里面有regex(regex)方法用正则表达式来抽取获取的网页中的内容,后来发现爬取的网页基本上可以找到请求json接口的地址,那可以请求一次然后直接去解析就好了,用不上爬虫框架的一些功能,用爬虫反而时间会更久,于是老大用HttpClient写了一个获取页面的功能。json可以使用fastJson来进行解析,页面可以用Jousp来解析,有的json数据在网页中的js变量中,不好获取,但是用正则抽取的话会很方便,使用方法如下:
String regex = "pagedata=.*;"; Pattern pattern = Pattern.compile(regex); Matcher matcher = pattern.matcher(html); matcher.find(); String regexStr = matcher.group(0);
相关文章推荐
- 在HTML网页上打印需要的内容,JS代码
- postgresql双机热备、高可用方案(采用pacemaker+corosync实现)
- “display:block-inline形式的Span或Div中添加文字后,导致Span或Div排版掉落、错位”的原因及解决方法
- cron表达式详解
- 快速排序的思路
- CSS3:渐变(gradient)用法详解
- 修改servlet配置文件后出现服务器启动错误
- CSS3:渐变(gradient)用法详解
- 问题:循环引用之assign修饰的delegate
- C++经典面试题之---String类
- Filter 过滤器
- 彩票走势图模板
- 学习ios【1】Objective-C 基本语法
- C#新开一个线程取到数据,如何更新到主线程UI上面
- YouTube视频插入Markdown
- Xcode编译错误_Offsetof
- JSP中操作数据库的常用SQL标签用法总结
- elasticSearch 2.0注意事项
- Java下利用Jackson进行JSON解析和序列化
- 需要学习的资料