黑马程序员_网络爬虫
2015-10-10 14:45
369 查看
——- android培训、java培训、期待与您交流! ———
HtmlUnit请自行GOOGLE下载
参考代码
模拟特定浏览器,也可以指定浏览器的相应版本(HtmlUnit最新版2.13现在可以模拟的浏览器有Chrome/FireFox/IE)
查找特定元素,通过get或者XPath可以从HtmlPage中获得特定的Html元素,如下例子
发现一个好玩的东西,利用HtmlUnit开源项目写简单爬虫
HtmlUnit其实就是一个后台运行的JAVA浏览器,便捷,高效。HtmlUnit请自行GOOGLE下载
参考代码
public class test{ WebClient webClient=new WebClient(); webClient.getOptions().setCssEnabled(false);//关闭css webClient.getOptions().setJavaScriptEnabled(false);//关闭JavaScript 如需运行脚本可设置为true final HtmlPage page=webClient.getPage("http://www.163.com");//设置需抓取的网站地址 System.out.println(page.asText());//输入打印 webClient.closeAllWindows(); }
模拟特定浏览器,也可以指定浏览器的相应版本(HtmlUnit最新版2.13现在可以模拟的浏览器有Chrome/FireFox/IE)
//模拟chorme浏览器,其他浏览器请修改BrowserVersion.后面 WebClient webClient=new WebClient(BrowserVersion.CHROME);
查找特定元素,通过get或者XPath可以从HtmlPage中获得特定的Html元素,如下例子
方法一,通过get方法获取 HtmlPage page=webClient.getPage("http://www.163.com"); HtmlDivision div=(HtmlDivision)page.getElementById("hed"); 方法二,通过XPath获取,XPath通常用于无法通过Id搜索,或者需要更为复杂的搜索时,XPath的相关教程自行GOOGLE //同样可以打印出hed的内容,//div中//表示搜索整个文档中的div,并将这些div //放入list中,然后获取第一个div final HtmlDivision div = (HtmlDivision) page.getByXPath("//div").get(0); System.out.println(div.asXml());
相关文章推荐
- java对世界各个时区(TimeZone)的通用转换处理方法(转载)
- java-注解annotation
- java-模拟tomcat服务器
- java-用HttpURLConnection发送Http请求.
- java-WEB中的监听器Lisener
- Android IPC进程间通讯机制
- Android Native 绘图方法
- Android java 与 javascript互访(相互调用)的方法例子
- 介绍一款信息管理系统的开源框架---jeecg
- 聚类算法之kmeans算法java版本
- java实现 PageRank算法
- PropertyChangeListener简单理解
- 插入排序
- 冒泡排序
- 堆排序
- 快速排序
- 二叉查找树
- [原创]java局域网聊天系统