无节操爬虫越来越多,看来要对服务器做一些调整
2015-01-09 12:21
218 查看
最近无节操爬虫越来越多,越来越流氓,主要体现在完全不控制速率的用一整段的 IP 地址来爬取你的网页,而且有些根本就是伪装成普通浏览器访问。尽管 OSC 对单 IP 做了并发的限制,但架不住大量的 IP 进行爬取。
OSChina 目前是专门针对爬虫用独立的 Tomcat 来处理爬虫的请求(Tomcat_Spider),而普通用户的访问走的是另外独立 Tomcat(Tomcat_User)。这个是根据 User-Agent 在 Nginx 这一端进行判断并分流的。
由于爬虫的 Tomcat 我们很少更新,在上面我们还配置了一旦爬虫 Tomcat 挂掉后就自动使用普通用户的独立 Tomcat,其实这个配置很危险。
因为今天早上又有无节操爬虫把爬虫 Tomcat_Spider 搞死了,导致大量的访问堆积到普通用户的 Tomcat_User 上,直接导致 Tomcat_User 也挂掉了!
目前已经取消了 Tomcat_User 作为 Tomcat_Spider 备用的配置。
接下来我们要将 Team 的请求也独立到一个 Tomcat_Team 之上,因为 Team 都是私密页面,爬虫访问不到,就算再出现今天早上的情况也不会影响大家使用 Team 服务。另外因为 Team 是大家工作用的系统,要保证高可用。
春节前将会完成此配置调整,包括启用 Team 的 HTTPS 支持。
OSChina 目前是专门针对爬虫用独立的 Tomcat 来处理爬虫的请求(Tomcat_Spider),而普通用户的访问走的是另外独立 Tomcat(Tomcat_User)。这个是根据 User-Agent 在 Nginx 这一端进行判断并分流的。
由于爬虫的 Tomcat 我们很少更新,在上面我们还配置了一旦爬虫 Tomcat 挂掉后就自动使用普通用户的独立 Tomcat,其实这个配置很危险。
因为今天早上又有无节操爬虫把爬虫 Tomcat_Spider 搞死了,导致大量的访问堆积到普通用户的 Tomcat_User 上,直接导致 Tomcat_User 也挂掉了!
目前已经取消了 Tomcat_User 作为 Tomcat_Spider 备用的配置。
接下来我们要将 Team 的请求也独立到一个 Tomcat_Team 之上,因为 Team 都是私密页面,爬虫访问不到,就算再出现今天早上的情况也不会影响大家使用 Team 服务。另外因为 Team 是大家工作用的系统,要保证高可用。
春节前将会完成此配置调整,包括启用 Team 的 HTTPS 支持。
相关文章推荐
- 调整Oracle数据库服务器性能的一些参考
- 久没上来,发现grails文章的浏览量比较多,看来现在国内用grails+groovy的人越来越多了
- WIN2000(NT)中一些服务器软件的安装配置全过程
- 编写完成端口网络服务器的一些说明 (1)
- 请问上传到服务器的数据增氧保存好一些?
- MS的帮助越来越多视频了。
- 李开复由于五封信件被越来越多市场人反感
- JSP中获取一些服务器变量
- 看来偶的WEB软件开发基本功还得再扎实一些
- 经验共享:介绍网卡调整过程中的 一些另类小技巧
- cloudscape网络配置,roller服务器安装,以及一些我喜欢犯的小错误
- 关于越来越多的学计算机的人
- ASP.NET每页只能有一个服务器表单 & 一些问题
- JSP中获取一些服务器变量
- 如何调整dotNet 服务器的性能,具体操作
- 转载:使用 IIS 5.0 调整 Web服务器的艺术与科学
- 关于自定义客户端验证脚本同时和服务器控件关联的一些心得
- 关于tomcat服务器优化,常遇到的一些简单问题的解决方法 (z)
- 编写完成端口网络服务器的一些说明 (1)
- 现在的让人心痛的腐败新闻是越来越多