htmlpaser打造个性化的爬虫程序 第一天
2012-04-08 20:48
260 查看
htmlpaser打造个性化的爬虫程序 第一天
/** * A method to get all the Links that follow the given pattern in the page . * @param url * @param pattern * @return Links list * @author hym * */ public List extractUrls(String url,String pattern) { List list = new ArrayList(); System.out.println("extractURL method here!"); try{ Parser parser = new Parser(); parser.setURL(url); NodeFilter filter = new LinkStringFilter(pattern,true); NodeList nlist=parser.extractAllNodesThatMatch(filter); for(int i = 0 ; i <nlist.size(); i++) { Node n = nlist.elementAt(i); if (n instanceof LinkTag) { LinkTag link = (LinkTag)n; //System.out.println(link.getLink()); list.add(link.getLink()); } } }catch(ParserException e) { e.printStackTrace(); } return list; }
相关文章推荐
- htmlpaser打造个性化的爬虫程序 第二天
- htmlpaser打造个性化的爬虫程序 第三天
- 打造个性化的Win Vista CMD窗口
- Java编程技巧:小爬虫程序
- 流氓软件+传播(病毒)+核心指令———打造无法杀掉的恶意程序
- 打造个性化的Select(可编辑)
- 《微信小程序七日谈》- 第一天:人生若只如初见
- 第三百六十五节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)的基本查询
- 一个简单的爬虫程序(爬取百度百科关于python的一千个页面)
- 某个php爬虫程序分析--来自wooyun
- 爬虫程序提取信息(统计符合条件的文件数量)
- 为编写网络爬虫程序安装Python3.5
- 用CDO.Message打造邮件发送程序
- 网页爬虫程序开发经验谈
- 打造一个属于自己的BaseActivity(沉浸状态栏,dialog,完全退出程序。应有尽有)
- WPF、WCF、WF打造Hello World程序
- 爬虫程序
- Node.js + Web Socket 打造即时聊天程序嗨聊
- 简易网络爬虫程序的开发(2)(c#版)