Jsoup获取网页源代码不一致的问题
2015-10-22 23:33
691 查看
我用狐火浏览器抓取csdn咨讯文章的网页源码,发现得到的结果和在浏览器中看到的不一样。
开始我的代码为:
后来想到要模拟浏览器的行为,于是查看请求头,添加”User-Agent”请求头,这样得到的源码和网页上的是一样的,最好也添加一些其它的请求头
开始我的代码为:
Document doc = Jsoup.connect("http://www.csdn.net/article/2015-10-21/2825979").get();
后来想到要模拟浏览器的行为,于是查看请求头,添加”User-Agent”请求头,这样得到的源码和网页上的是一样的,最好也添加一些其它的请求头
Document doc = Jsoup.connect("http://www.csdn.net/article/2015-10-21/2825979").header("User-Agent", "Mozilla/5.0 (Windows NT 6.3; WOW64; rv:41.0) Gecko/20100101 Firefox/41.0").get();
相关文章推荐
- W3C api 抓取
- Jsoup解析HTML实例及文档方法详解
- Java中使用开源库JSoup解析HTML文件实例
- crawler4j抓取页面使用jsoup解析html时的解决方法
- Jsoup获取全国地区数据属性值(省市县镇村)
- java使用Jsoup连接网站超时的解决方法
- 简单网路爬虫(JSoup) + SSH + Mysql保存...
- 如何用Java监控XX挂号平台X科的可用号
- 使用HttpClient和jsoup获取并解析html
- 多线程爬虫遇到的一些问题
- jsoup的Node类
- JSOUP简单应用
- 如何使用Java中HttpClient解析Html中的table
- HttpClient+jsoup登录+解析 163邮箱
- 百科描述jsoup
- Jsoup抓取页面内容
- Jsoup处理html空格乱码问题
- jsoup解析日志正文
- jsoup实战之抓取大众点评网区域省份城市信息
- java使用Jsoup连接网站超时的解决方法 Read timed out