您的位置:首页 > Web前端 > HTML

htmlpaser打造个性化的爬虫程序 第一天

2012-04-08 20:48 260 查看
htmlpaser打造个性化的爬虫程序 第一天

/**
* A method to get all the Links that follow the given pattern in the page .
* @param url
* @param pattern
* @return Links list
* @author hym
*
*/
public List extractUrls(String url,String pattern)
{
List list = new ArrayList();
System.out.println("extractURL method here!");
try{
Parser parser = new Parser();
parser.setURL(url);
NodeFilter filter = new LinkStringFilter(pattern,true);
NodeList nlist=parser.extractAllNodesThatMatch(filter);
for(int i = 0 ; i <nlist.size(); i++)
{
Node n = nlist.elementAt(i);
if (n instanceof LinkTag) {
LinkTag  link = (LinkTag)n;
//System.out.println(link.getLink());
list.add(link.getLink());
}
}
}catch(ParserException e)
{
e.printStackTrace();
}
return list;
}
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: