关于爬虫和反爬虫的简略方案分享
前言
爬虫和反爬虫日益成为每家公司的标配系统。
爬虫在情报获取、虚假流量、动态定价、恶意攻击、薅羊毛等方面都能起到很关键的作用,所以每家公司都或多或少的需要开发一些爬虫程序,业界在这方面的成熟的方案也非常多。
有矛就有盾,每家公司也相应的需要反爬虫系统来达到数据保护、系统稳定性保障、竞争优势保持的目的。
像安全与黑客从来都是相辅相成一样。
爬虫与反爬虫也是在双方程序员的斗智斗勇的过程不断发展和成长的。
抓包
抓包的目的: 分析出协议请求使用的数据,请求接口,参数等等。
常用的抓包分析工具:
- Fiddler
- Charles
- Sniffer
- Wireshark
具体使用策略,请自行百度,Google。
抓数据
使用 HttpClient 模拟请求
充分了解 HttpClient 的特性,使用方式等。
user_agent 的使用
使用 user_agent 的伪装和轮换模拟不同的客户端。
建立UserAgent池,可以通过以下地址获取一定量的UserAgent的信息。
http://www.fynas.com/ua/search?b=Chrome&k=
代理IP的使用
建立代理ip池,一般使用的免费或收费代理获取代理ip每秒都会有一定的频率限制。
那么我们在使用的时候,就要在频率限制内建立自己内部的一些策略,
当然这些策略建立在代理服务商的策略之上。因此设计实施时要考虑易维护性。
http代理
有些网站(包括APP、PC)具有一定的反爬虫能力,
如拒绝代理ip直接请求接口:
这是我使用代理ip请求登录接口时,某APP的响应:
CONNECT refused by proxy
而使用socks代理则无此问题。这就不得不要了解http代理和socks代理的区别。
socks代理
待续
设置访问频率
即便是使用了代理ip,那么对目标接口的访问也要有一定的频率控制,
防止目标服务方检测出频率过快,进行拒绝服务的响应。
Cookie 池失效和更新策略
获取目标站点Cookie有效时间,
将对应账号和Cookie存入Redis,
起一个任务对账号Cookie进行定时检测,
接近失效时间,进行提前更新Cookie信息,
具体Cookie 池Cookie的失效和更新策略需要根据自己业务进行适当调整。
防止目标方的分析
- 确保同一账号的请求使用的是同一个UserAgent、同一个代理ip。
- 注意访问频率
- 其他
总而言之,就是模拟正常的客户端发起对服务方的请求,伪装的越像正常的客户端,服务方越难分析出。
只要是服务方能够提供服务,一般情况下都可以进行数据的爬取,
只不过是难易程度不同。
如果出于商业目的,要考虑付出的成本到底是否合适。
总结
以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,如果有疑问大家可以留言交流,谢谢大家对脚本之家的支持。
您可能感兴趣的文章:
- 关于爬虫与反爬虫简略方案
- 关于web性能的思考与分享[04]——页面优化方案
- 关于工作宝APP的对数据库加密的方案建立过程分享
- 关于Python爬虫之获取海量表情包+存入数据库+搭建网站通过关键字查询表情包
- 关于网站建设设计方案
- QQ空间爬虫分享(2016年11月18日更新)
- [bug修复方案分享]ImageSpan居中问题
- 关于自定义父控件实现右滑动最后,继续滑动,加载刷新更多的另一种实现方案
- 关于前端ajax请求的优雅方案(http客户端为axios)
- 关于服务器定时重启并利用批处理加载相关服务的完整方案
- 零基础写python爬虫之抓取百度贴吧代码分享
- MySQL中SELECT+UPDATE处理并发更新问题解决方案分享
- 分享一个自定义打印套打方案
- 分享一篇关于对象容器的文章
- 关于facebook分享不能显示图片链接问题
- {分享}《关于0.9999….=1的证明》
- 微信、微博、Facebook、Twitter等社交媒体分享方案探索
- 关于python爬虫分布式爬虫的一些记载
- 关于RFID、物联网方案整理想法归纳之 (一)
- C#学习分享 关于类方法的隐藏与重写