使用HtmlParser 解析链接节点
2014-02-19 11:16
507 查看
package ch2; import java.io.IOException; import org.htmlparser.Node; import org.htmlparser.NodeFilter; import org.htmlparser.Parser; import org.htmlparser.PrototypicalNodeFactory; import org.htmlparser.tags.CompositeTag; import org.htmlparser.tags.LinkTag; import org.htmlparser.util.NodeList; import ch1.Test1; public class HyperLinkTrace { public static void main(String[] args) throws Exception { //加载要解析的网页 String sc=Test1.openFile("E:\\test.html"); Parser parser=new Parser(sc); //注册新的节点解析器 PrototypicalNodeFactory factory=new PrototypicalNodeFactory(); //解析“链接”节点 factory.registerTag(new LinkTag()); //设置解析器 parser.setNodeFactory(factory); //创建一个过滤器,过来链接节点 NodeFilter lnkFilter=new NodeFilter() { @Override public boolean accept(Node arg0) { if(arg0 instanceof LinkTag){ return true; } return false; } }; //解析所有的链接节点 NodeList nlist=parser.extractAllNodesThatMatch(lnkFilter); for (int i = 0; i < nlist.size(); i++) { CompositeTag node=(CompositeTag)nlist.elementAt(i); LinkTag link=(LinkTag)node; //获取链接的地址 System.out.println(link.getLink()); } } }
相关文章推荐
- 黄聪:使用Python中的HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、Cookies(二)
- #小练习 解析HTML文件并使用字典保存链接 分类: HTMLParser python 小练习 2013-11-11 12:06 267人阅读 评论(0) 收藏
- 【python】使用HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、Cookies
- 使用Python中的HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、Cookies .
- 使用Jsoup库解析HTML、XML或URL链接中的DOM节点
- 使用Python中的HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、Cookies(二)
- 使用Python中的HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、Cookies(二)(转)
- 使用Python中的HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、Cookies
- 黄聪:使用Python中的HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、Cookies(二)
- 使用Jsoup库解析HTML、XML或URL链接中的DOM节点
- 使用NetCDF库时提示无法链接错误"error LNK2001: 无法解析的外部符号 nc_create"
- dom4j中使用xpath解析带命名空间的xml文件,取不到节点的解决办法
- 【慕课笔记】3-3 应用SAX方式解析XML—使用SAX解析XML文件的节点名和节点间文本
- 使用HtmlParser解析HTML (C#版)
- htmlparser抽取网页内相关节点链接的代码
- Json3:使用gson做节点解析
- 使用log4cplus时遇到的链接错误:无法解析的外部符号 "public: static class log4cplus::Logger __cdecl log4cplus::Logger::getInstance(class std::basic_string<wchar_t,struct std::char_traits<wchar_t>,
- .net HTMLParser详细使用说明 强大的Filter类 解析HTML文档如此简单
- 通用json解析,根据json层级关系直接使用: 基节点.子节点.孙节点.x.x
- dom4j中使用xpath解析带命名空间的xml文件,取不到节点的解决办法