云计算之路-阿里云上:消灭“黑色n秒”第三招——禁用网卡的TCP/IP Offload
2014-05-21 21:28
465 查看
![](https://oscdn.geek-share.com/Uploads/Images/Content/202004/03/92adf286f9f5f55076a84a373f9c3e21.jpg)
程咬金有三板斧,我们有三招。在这篇博文中我们要出第三招,同时也意味着昨天在“希望的田野”上的第二招失败了。
前两招打头(CPU)不凑效,这一招要换一个部位,但依然要坚持攻击敌人最弱(最忙最累)部位的原则。那除了CPU,最忙最累的部位是哪里呢?对于Web服务器来说,毫无悬念,当然是网卡。而且阿里云的云服务器,所有的网络负载都集中在一块内网网卡上,SLB(负载均衡)用它,OCS(缓存服务)用它,RDS(数据库服务)也用它。所以,就对它出招!
招式受这篇博文(XenServer – Windows 2003 TCP checksum issue)的启发,博主通过禁用TCP/IP Offload解决了“通过IIS下载文件中途突然卡住”的问题。TCP/IP Offload的初衷就是让网卡帮CPU分担一些TCP/IP协议栈的处理工作,比如检查checksum、发ack包,在物理机环境下,它是提高网络处理性能的功臣。但是在虚拟机环境下,网卡是虚拟出来的,它的作用就有待商榷与验证。于是,禁用它成为第三招的招式。
有了目标部位与招式,还等什么,出招!
开始的时候,我们偷了点懒,只出了两个手指,想点穴取胜——只禁用了网卡的Checksum Offload与Check checksum on RX packets。
![](https://oscdn.geek-share.com/Uploads/Images/Content/202004/03/e8bc21aafe81a7b4deac651cdb6db05d.png)
结果,“黑色1秒”依旧。
恼火之下,接着干脆南拳北腿一起出,南拳是在注册表(HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\Tcpip\Parameters\)中添加DisableTaskOffload=1(禁用TCP/IP Offload),北腿是在同样的注册表位置添加EnableRSS=1(Receive-Side Scaling,充分利用多核CPU的优势提高网络处理性能,详见这里)。
![](https://oscdn.geek-share.com/Uploads/Images/Content/202004/03/bf62c3c90b592b5e6ce453a772cd2570.png)
注册表设置好之后,重启计算机。。。
结果敌人被成功被击倒!自13:30左右被击倒后,到现在(21:20)也没爬起来(黑色1秒没出现)。如果明天一天还没能爬起来,我们就可以宣布获胜了。
后来,我们在另外一台服务器上发现只要用拳头(只添加DisableTaskOffload=1)就可以把敌人干倒,到目前也没爬起来,这还要进一步观察。
是否真的能三招致胜,明天就会见分晓!
【更新】
结果,第二天早上黑色1秒再次出现。
【第三招增强版】
后来发现北腿出错了,应该是禁用Receive-Side Scaling。Windows Server 2012中默认就启用了Receive-Side Scaling,可以通过以下命令查看:
netsh int tcp show global
命令运行结果:
![](https://oscdn.geek-share.com/Uploads/Images/Content/202004/03/1444b09bed8728b1ed7f8840c0a2d204.png)
所以第三招增强版就是禁用Receive-Side Scaling,操作命令如下:
netsh int tcp set global rss=disabled
命令运行结果:
![](https://oscdn.geek-share.com/Uploads/Images/Content/202004/03/f7715935e8c0b0cd17b2a71552a97b92.png)
禁用Receive-Side Scaling之后有个意外的发现,CPU的8个核的负载分配更均匀了。
![](https://oscdn.geek-share.com/Uploads/Images/Content/202004/03/1a9af1f69986ac7d15f6e9d3671754fd.png)
第三招增强版的效果还需要一段时间的观察。
【参考资料】
Windows Server 2008 network speed slow, Xen 3.4.3 HVM ISO
XenServer – Windows 2003 TCP checksum issue(文中有一个地方写错了,应该是DisableTaskOffload=1)
Citrix XenServer Slow Network Performance
TCP Offload Performance Impact
Performance Tuning Windows 2012: Network Subsystem–Part 1
相关文章推荐
- 云计算之路-阿里云上:消灭“黑色n秒”第二招——给w3wp进程指定CPU核
- TOE(TCP/IP Offload Engine)网卡与一般网卡的区别 分类: arm-linux-Ubuntu HI3531 2014-01-10 09:10 859人阅读 评论(0) 收藏
- TOE(TCP/IP Offload Engine)网卡与一般网卡的区别
- TOE(TCP/IP Offload Engine)网卡与一般网卡的区别
- TOE(TCP/IP Offload Engine)网卡与一般网卡的区别
- TOE(TCP/IP Offload Engine)网卡与一般网卡的区别
- 云计算之路-阿里云上:消灭“黑色n秒”第一招——不让CPU空闲
- DPDK 使用网卡ip/tcp/udp checksum offload
- 云计算之路-阿里云上:对“黑色n秒”问题的最终猜想——CPU C-states引起的
- 阿里云因 bug 禁用内部 IP 导致链路不通,造成大规模故障 – 运维派
- 云计算之路-阿里云上:“黑色1秒”问题与2009年Xen一个补丁的故事
- TCP offload engine(TCP减负引擎网卡), TCP backlog/prequeue buffer (TCP后备预备队列)
- TCP/IP Offload Engine技术的嵌入式以太网接口设计
- 云计算之路-阿里云上-幸福总是很突然:“黑色1秒”问题解决啦
- 云计算之路-阿里云上:什么是“黑色1秒”?
- 当 SQL Server 连接池被禁用时您可能必须调整的 TCP/IP 设置的描述
- 云计算之路-阿里云上:黑色1秒,微软的问题还是阿里云的问题?
- DIY_DE2之DM9000A网卡调试系列例程(四)——基于NicheStack协议栈的TCP/IP实现
- 云计算之路-阿里云上:Linux内核bug引起的“黑色10秒钟”
- lwIP(TCP/IP)协议栈移植(不包括网卡驱动)