HtmlUnit模仿浏览器抓取数据(含ajax)
2015-01-27 15:25
302 查看
import java.io.IOException; import java.net.MalformedURLException; import com.gargoylesoftware.htmlunit.BrowserVersion; import com.gargoylesoftware.htmlunit.FailingHttpStatusCodeException; import com.gargoylesoftware.htmlunit.NicelyResynchronizingAjaxController; import com.gargoylesoftware.htmlunit.SilentCssErrorHandler; import com.gargoylesoftware.htmlunit.WebClient; import com.gargoylesoftware.htmlunit.html.HtmlPage; public class WorldBankCrawl { public static void main(String[] args) throws FailingHttpStatusCodeException, MalformedURLException, IOException { WebClient webClient = new WebClient(BrowserVersion.FIREFOX_24); webClient.setCssErrorHandler(new SilentCssErrorHandler()); webClient.setAjaxController(new NicelyResynchronizingAjaxController()); webClient.getOptions().setCssEnabled(true); webClient.getOptions().setRedirectEnabled(false); webClient.getOptions().setAppletEnabled(false); webClient.getOptions().setJavaScriptEnabled(true); webClient.getOptions().setPopupBlockerEnabled(true); webClient.getOptions().setTimeout(10000); HtmlPage page = webClient.getPage("http://huaban.com/favorite/home/"); System.out.println(page.asXml()); webClient.closeAllWindows(); } }
相关文章推荐
- C#抓取ajax异步数据
- HttpURLConnection模拟浏览器+网络数据抓取
- jquery autocomplete ajax获取动态数据,兼容各浏览器,支持中文
- python爬取ajax动态生成的数据 以抓取淘宝评论为例子
- python网络爬虫抓取ajax动态网页数据:以抓取KFC门店地址为例
- c#抓取浏览器网页代码数据(winform)
- 解决部分浏览器ajax提交数据,数据已改变,却后台数据接收数据还是上一次值的问题
- HtmlUnit抓取Ajax网页,例子是去哪儿机票
- 定时ajax抓取数据
- JavaScript的Ajax数据请求与浏览器兼容
- HttpURLConnection模拟浏览器+网络数据抓取
- 数据提交Ajax处理浏览器缓存的问题
- cookie ajax动态网页数据的抓取
- 网页上通过ajax异步加载的数据有什么办法抓取到吗?
- 无浏览器限制的AJAX异步获取数据
- C#抓取ajax异步数据
- 一个简单的例子演示:模仿微博里面的通过浏览器的滚动条来动态加载数据
- 解析file_get_contents模仿浏览器头(user_agent)获取数据
- htmlunit做爬虫绕过验证码抓取网站数据
- 通过抓取淘宝评论为例讲解Python爬取ajax动态生成的数据(经典)