获取HTML网页的所有图片的url
2013-08-06 16:31
489 查看
主要使用了HtmlParser类解决问题。
必须导入htmlparser.jar包,读者可从网上自行下载。
下面直接贴上源码:
输出结果就是一堆图片的链接了。
必须导入htmlparser.jar包,读者可从网上自行下载。
下面直接贴上源码:
public NodeList parser(String url) throws ParserException{ /**根据Url创建parser对象**/ Parser parser = new Parser(url); /**设置编码,必须与Url编码一样 **/ parser.setEncoding("utf-8"); /** 构建一个Html页面对象 **/ HtmlPage htmlPage = new HtmlPage(parser); parser.visitAllNodesWith(htmlPage); /** 获取Body下面所有的节点,可以想象成类似树状结构 **/ NodeList list = htmlPage.getBody(); /** 建立一个Filter,用于过滤节点,此处获得形如“<img></img>”这样的节点 **/ NodeFilter filter = new TagNameFilter("IMG"); /** 得到过滤后的节点 **/ list = list.extractAllNodesThatMatch(filter, true); for(int c =0; c < list.size(); c ++){ ImageTag imageTag=(ImageTag)list.elementAt(c); /** 输出图片的链接Url **/ System.out.println(imageTag.getImageURL()); } return list; } public static void main(String[] args) throws ParserException { Demo demo = new Demo(); demo.parser("http://www.163.com"); }
输出结果就是一堆图片的链接了。
相关文章推荐
- 一条JavaScript语句获取当前网页所有图片的url
- [No0000D7]img生成器.bat合并所有图片到html网页中
- asp.net正则表达式提取网页网址、标题、图片,滤所有HTML标签
- php-curl获取接口图片地址,在php拼接img中无法访问,报403错误,在浏览器url中直接可以访问,html页面里img也可以访问
- ios stringWithContentsOfURL 获取网页html中json
- C#获取远程网页中的所有链接URL
- php通过正则从字符串中获取所有图片url地址
- Python 网络爬虫 009 (编程) 通过正则表达式来获取一个网页中的所有的URL链接,并下载这些URL链接的源代码
- HTMLPARSER 爬取 html网页 获取标题 关键字 内容 url
- asp.net正则表达式提取网页网址、标题、图片实例以及过滤所有HTML标签实例
- QT中通过HTTP URL获取并保存网页上的图片
- C#获取远程网页中的所有链接URL
- Python 网络爬虫 009 (编程) 通过正则表达式来获取一个网页中的所有的URL链接,并下载这些URL链接的源代码
- iOS 获取html中的所有图片链接地址
- C#获取网页的HTML码、下载网站图片、获取IP地址
- ASP.NET正则表达式提取网页网址、标题、图片实例以及过滤所有HTML标签实例
- C# 网络编程之webBrowser获取网页url和下载网页中图片
- C# 网络编程之webBrowser获取网页url和下载网页中图片
- Android网络:HTTP之利用HttpURLConnection访问网页、获取网络图片实例
- C# 根据URL返回HTML_根据URL获取图片信息/缩略图