网络爬虫防止被封的策略和反反爬策略简单总结
2016-12-16 19:11
253 查看
今天不想工作,比较累,遇到一个网站反爬比较严重,不说具体哪个名字了,简单总结下爬虫防封策略
1,伪装http 头
chrome 开发者模式,firebug等抓包工具,查看http 进行模拟User-Agent,有的需要加上Referer,可以多加入几个http user
2,代理ip,对于限制ip 或者ip被封的采用代理ip
代理ip 可以抓取,本人每天监控十多个网站,每天能抓取一批,计划以后每天公布几个可以访问百度的代理ip,注意用高匿的最安全
3,有些需要进行登录
进行模拟登录,或者手动登录了 记下cookie 天上
4,验证码
目前有些简单的验证码机器可以识别下,有些不行,需要人工输入,当出现反爬,报警后,再人工干预下
5,注意抓取频度
这是反爬的一个最简单,但是很实用的方式
6,可以使用拨号的ip,定期拨号更换ip,注意间断一段时间,保证ip变化
7,采用模拟浏览器的一些方式,进行模拟人的行为,包括自动填表,自动点击,自动滑动滚动条等,可以用selenium 和htmlunit 实现,phtomjs 也是一个不错的选择
8,分析网站反爬的一些策略,进行相应的反反爬策略去除,比如有些转为爬虫设置的一些坑,需要识别出来,具体大家可以搜搜一些
1,伪装http 头
chrome 开发者模式,firebug等抓包工具,查看http 进行模拟User-Agent,有的需要加上Referer,可以多加入几个http user
2,代理ip,对于限制ip 或者ip被封的采用代理ip
代理ip 可以抓取,本人每天监控十多个网站,每天能抓取一批,计划以后每天公布几个可以访问百度的代理ip,注意用高匿的最安全
3,有些需要进行登录
进行模拟登录,或者手动登录了 记下cookie 天上
4,验证码
目前有些简单的验证码机器可以识别下,有些不行,需要人工输入,当出现反爬,报警后,再人工干预下
5,注意抓取频度
这是反爬的一个最简单,但是很实用的方式
6,可以使用拨号的ip,定期拨号更换ip,注意间断一段时间,保证ip变化
7,采用模拟浏览器的一些方式,进行模拟人的行为,包括自动填表,自动点击,自动滑动滚动条等,可以用selenium 和htmlunit 实现,phtomjs 也是一个不错的选择
8,分析网站反爬的一些策略,进行相应的反反爬策略去除,比如有些转为爬虫设置的一些坑,需要识别出来,具体大家可以搜搜一些
相关文章推荐
- 防止表单重复提交的八种简单有效的策略
- 对设计模式的总结之简单工厂与策略模式
- hibernate中的检索策略 简单总结
- 防止表单重复提交的八种简单有效的策略
- (转)防止表单重复提交的八种简单有效的策略
- 网络爬虫--防止爬虫被屏蔽的集中方式的总结
- 防止表单重复提交的八种简单有效的策略
- 防止表单重复提交的八种简单有效的策略
- Hibernate主键生成策略简单总结
- 防止表单重复提交的八种简单有效的策略
- 简单地总结一下未来一年需要做的事
- IE EXPLORE修改防止策略
- 在IIS+VS.NET环境下创建ASP.NET应用程序,简单步骤总结
- SQLServer和Access、Excel数据传输简单总结
- 简单实用的DataSet更新数据库的类+总结(转~给懒得写sp的人)
- [引]SQLServer和Access、Excel数据传输简单总结 选择自 xdev 的 Blog
- 简单实用的DataSet更新数据库的类+总结(c#)
- Java1.5语言新特性简单总结
- 简单实用的DataSet更新数据库的类+总结(c#) 选择自 allen_21229 的 Blog
- 关系数据库的查询优化策略----总结了一些查询优化的方法,希望可以对大家有所帮助(原创)