【垂直搜索引擎搭建15】HtmlParser中Filter方法(本地URL地址)
2016-08-24 21:39
441 查看
package org.algorithm; import java.io.BufferedReader; import java.io.File; import java.io.FileReader; import java.io.IOException; import org.htmlparser.Node; import org.htmlparser.NodeFilter; import org.htmlparser.Parser; import org.htmlparser.filters.HasAttributeFilter; import org.htmlparser.util.NodeList; import org.htmlparser.util.ParserException; public class LocalParserDemo { public static void getContent(String url) throws ParserException,IOException{//解析网页 Parser parser = new Parser(url); NodeFilter filter = new HasAttributeFilter("div"); NodeList nodes = parser.extractAllNodesThatMatch(filter); String nodex = ""; if(nodes!=null){ for(int i=0;i<nodes.size();i++){ Node node = nodes.elementAt(0); nodex = node.toString(); System.out.println(nodex); } } } @SuppressWarnings("resource") public static void main(String[] args) throws IOException, ParserException {//加载本地网页 String path = "c://n382738784.html"; StringBuffer sb = new StringBuffer(); BufferedReader br = new BufferedReader(new FileReader(new File(path))); String temp = ""; while((temp = br.readLine())!= null){ sb.append(temp); sb.append("\r\n"); } String url = sb.toString(); getContent(url); } }
相关文章推荐
- java-用HttpURLConnection发送Http请求.
- 微信搜一搜迈出新的一步,好戏来了
- jQuery plugin items filter
- 全国哀悼日网站页面变成灰色的filter方法
- VBScript 剪贴板抓取URL并在浏览器中打开
- 用css filter做鼠标滑过图片效果
- 用vbs 实现从剪贴板中抓取一个 URL 然后在浏览器中打开该 Web 站点
- asp获取URL参数的几种方法分析总结[原创]_应用技巧_脚本之家
- C#实现在网页中根据url截图并输出到网页的方法
- zend framework框架中url大小写问题解决方法
- PHP Filter过滤器全面解析
- url decode problem 解决方法
- php url地址栏传中文乱码解决方法集合
- 探讨:parse url解析URL,返回其组成部分
- C#实现自动识别URL网址的方法
- C#自定义针对URL地址的处理类实例
- JavaScritp添加url参数并将参数加入到url中及更改url参数的方法
- ASP 使用Filter函数来检索数组的实现代码
- ASP让url的中文显示为编码
- 关于backbone url请求中参数带有中文存入数据库是乱码的快速解决办法