您的位置:首页 > 理论基础 > 计算机网络

网络端口采用了1000M速率时候出现网络通信丢包+IDC机房托管服务器之间通信不畅

2012-09-22 13:14 771 查看
网络端口采用了1000M速率时候出现网络通信丢包+IDC机房托管服务器之间通信不畅网络故障:
交换机端口1000M,网卡也是1000M,网卡配置正常。ping时候间隔丢包。
表现为网络通信丢包,并且排除了其他网络设置故障。故障原因:使用的网线非严格质量的超六类网线,网线质量无法达1000M。解决方法:将交换机端口设置成100M端口;或者更换为超六类网线。故障出现情况:网络端口采用了1000M速率时候出现网络通信丢包。目录:
1.实例场景。网络端口采用了1000M速率时候出现网络通信丢包
2.生产环境。IDC机房托管服务器之间通信不畅,祸起ping丢包
3.原理剖析 机理分析。为什么会出现网络丢包的情况,网络丢包的原因是什么?【实例场景 生产环境】最近一些局域网的个别互联网用户反映上网不稳定时通时断,结合这次维修工作实际讲一下解决此类问题的一点心得。一、简单介绍Ping丢包率概念数据在网络中是被分成一个个数据包传输的,每个数据包中都有表示数据的信息和提供数据路由的桢。而数据包在一般介质中传播是总有一小部分由于两个终端的距离过大会丢失,而大部分数据包都会到达目的终端.所谓网络丢包率是数据包丢失部分与所传数据包总数的比值.正常传输时网络丢包率应该控制在一定范围内。在cmd 中键入ping [网址],显示最后一行(x% loss)就是对目标地址ping包的丢包率。二、了解一下单位互联网用户宽带接入方式拓扑图(如图1所示)
●图1

三、解决问题的步骤方向这次我们要解决的问题是用户电脑丢包严重,有时会影响用户正常上网,这次解决问题的方法是顺藤摸瓜,意思是说由用户电脑自下而上查找问题。四、分步骤判断出问题所在。(一)介绍造成用户PC上网丢包原因:1、计算机网卡是否损坏;2、RJ45头是否损坏,是否线路错误;3、网线是否折伤;4、设备故障;下面首先使用用户的电脑,在cmd 中键入ipconfig显示如图2所示
●图2

得到该网络的网关(Default Gateway)后,ping 192.168.0.2 -t得到该网络丢包率大如图3所示
●图3

得到上述信息后,为了排除故障点,用自己随身携带的笔记本ping 192.168.0.2得到的结果依然如图3所示,首先可以排除不是用户电脑网卡的故障。接着查看用户水晶头是否制作规范,为了保险起见,将水晶头截掉重新做了新的水晶头,可是故障依旧。这时候就要从用户这台机器脱离向上找问题,即顺藤摸瓜的方法。为了能在24口交换机中迅速定位那根网线是该用户的,我们需要用户帮助我不停地做从网口上拔插网线动作,我就可在交换机指示灯处看到某个灯一灭一亮,注意这里说的一灭一亮并不是频闪,而是灭了又亮。采用上述办法就可以判断出7口为用户所接的交换机的端口,从交换上拔下该网线,用直通线一端接7口,一端笔记本,依然丢包,这样可以排除是网线的问题。需要说明的是这次报修的互联网用户是极个别的,说明这个网络中,绝大部分用户上网是正常的,找到该交换机空余的端口,用直通线一端接上,一端接测试用笔记本,目的是通过这种步骤测试出那个端口是完好的,如果这个不行,可以试下一个,依次类推,找到一个完好的端口,尽量多测试一会,为了节省时间测试端口时,可以一直运行着ping包的命令,待出现4图的情形后,基本可断定该端口可正常使用。●图4

为了保证该端口的能正常使用,可以多ping一段时间出现图5所示的情形。可以将将这次查修用户的网线插入该测试好的端口中,并加注标签,以备下次容易查修,然后到用户电脑上运行cmd命令,ping192.168.02 -t 可以得到网络正常、ping包正常,此次维修工作也已完成。五、总结交换机端口出现故障,究其原因是因为交换机自身的性能发生老化,这就意味着故障交换机的确出现了硬件性能下降的现象,因此会出现上网数据丢包严重的现象。总结这次工作,自己的一点心得就是要细心,在平时的工作中多积累,多总结,下次再出现此类问题就可以迅速的找到问题的所在点,并快速解决问题!
【实例场景 生产环境】IDC机房托管服务器之间通信不畅,祸起ping丢包  两个IDC机房托管的服务器之间通信不畅,经查,两个机房间的ping丢包率在8%左右。这样的丢包率很容易引起TCP连接失败,由于网络在线业务异常重要,不得有片刻的停机。所以刻不容缓,马上处理丢包问题。●图5


  一.ping丢包原因分析  端口速率不匹配是引起丢包的最直接的原因。而引起端口速率变成半双工的原因可能是网络闪断引起的,比如网关那端的端口速率发生变化,而我方交换机的端口是自适应的,因此在协商后就变成半双工了。
  二.判断ping丢包发生在哪里  从办公室的计算机分别ping 两个机房的服务器,然后ping网关,通过对输出进行比较,发现问题出在办公地点—望京的机房。再用路由跟踪的方式测试,得出一样的结论。  三.现场排查服务器之间通信不畅  检查网段类服务器之间,服务器与交换机之间,以及交换机之间的网络通信情况时,发ping 包,没有丢包,但从网内ping 外部任何地址,都有丢包现象出现,路由跟踪有时不成功。这些情况可以表明网段内的通信是完全正常的。  接下来要做的事情就是测试网关的状态。网关是一个Cisco 6509交换机,是网通自己管理,我方的交换机通过一条双绞线与Cisco 6509相连,它是所有服务器的外联接口。通过技术手段,已经知道上联交换机的上联端口是Fa0/41。  (1)从网段内的某些服务器ping网关,发现丢包。  (2)从外网的某台计算机ping 这个网关,没有丢包发生。  (3)从外网的某些计算机执行到这个网关的路由跟踪,情况正常。  (4)用外网远程的交换机ping小包,情况正常。  (5)从网段内的交换机ping小包,发现丢包。  由上面的测试结果可以得出结论:是我方的交换机与网通交换机(我方服务器的网关)间的链路出现故障。前几天我方为扩容在机架上施工,有可能碰到了线缆。  于是查看交换机指示灯状态。发现有一个端口指示灯黄绿交替闪烁,仔细一看,是某个交换机的41号端口,而且网线上标明这条线是整个网段的上联线,即与网关相连的那条线,和先前测试出来的端口是一致的。可能问题就出现在这个交换机上。于是连上Console线,登录这台交换机,用命令“# show int f0/41”查看41号端口的输出,嘿嘿!居然变成半双工了。再查看其他一些端口的双工情况,均是自适应,询问IDC 机房的人,确认网关那个连接端口的双工配置,网关的端口为全双工。  好,马上进入配置模式,输入“# config t, int f0/41,# duplex full”就把交换机的41号端口设置成全双工了,保存配置。再查看41号端口指示灯的状态,变为绿色,这表明故障已经排除。从内外来测试丢包的情况,一切恢复正常。【原理剖析 机理分析】为什么会出现网络丢包的情况,网络丢包的原因是什么?网络丢包是我们在使用ping对目站进行询问时,数据包由于各种原因在信道中丢失的现象。ping使用了ICMP回送请求与回送回答报文。 ICMP回送请求报文是主机或路由器向一个特定的目的主机发出的询问,收到此报文的机器必须给源主机发送ICMP回送回答报文。这种询问报文用来测试目的站是否可到达以及了解其状态。
需要指出的是,ping是直接使用网络层ICMP的一个例子,它没有通过运输层的UDP或TCP.
网络丢包的原因主要有物理线路故障、设备故障、病毒攻击、路由信息错误等,下面我们结合具体情况进行说明。
路由错误
网络路径错误也会导致数据包不能到达目的主机,如主机的默认路由配置错误,主机发出的访问其他网络的数据包会被网关丢弃。但此类丢包属于正常情况下的丢包,是意料之中的,不会对网络造成影响。
设备故障
设备故障主要是指设备硬件方面的故障,不包含软件配置不当造成的丢包。如网卡是坏的,交换机的某个端口出现了物理故障,光纤收发器的电端口与网络设备接口,或两端设备接口的双工模式不匹配。
笔者近日在工作中发现一交换机端口的光纤模块故障造成的丢包现象,该交换机在通信一段时间后死机,即不能通信,重启后恢复正常。在经过一段时间观察后发现,某光纤模块存在问题,取一块新的模块替换,一切正常。
究其原因,交换机会对所有接收到的数据包进行CRC错误检测和长度校验,将检查出有错误的包丢弃,正确的包转发出去。但这个过程中有些有错误的包在CRC错误检测和长度校验中都均未检测出错误,这样的包在转发过程中不会被发送出去,也不会被丢弃,它们将会堆积在动态缓存中,永远无法发送出去,等到缓存中堆积满了,就会造成交换机死机的现象。
最终结果是,数据包无法到达目的主机。
●物理线路故障
网管员发现广域网线路时通时断,发生这种情况时,有可能是线路出现故障,也可能是用户方面的原因。为了分清是否是线路故障,可以做如下测试。
如果广域网线路是通过路由器实现的,可以登录到路由器,通过扩展ping向对端路由器广域网接口发送大量的数据包进行测试。
如果线路是通过三层交换机实现,可在线路两端分别接一台计算机,并将IP地址分别设为本端三层路由交换机的广域网接口地址,使用“ping 对端计算机地址 -t”命令进行测试。
如果上述测试没有发生丢包现象,则说明线路运营商提供的线路是好的,引起故障的原因在于用户自身,需要进一步查找。
如果上述测试发生丢包现象,则说明故障是由线路供应商提供的线路引起的,需要与线路供应商联系尽快解决问题。
由物理线路引起的丢包现象还有很多,如光纤连接问题,跳线没有对准设备接口,双绞线及RJ-45接头有问题等。另外,通信线路受到随机噪声或者突发噪声造成的数据报错误,射频信号的干扰和信号的衰减等都可能造成数据包的丢失。我们可以借助网络测试仪来检查线路的质量。
●网络拥塞
网络拥塞造成丢包率上升的原因很多,主要是路由器资源被大量占用造成的。
如果发现网速慢,并且丢包率呈现上升的情况,这时应该show process cpu和show process mem,一般情况下发现IP input process占用过多的资源。接下来可以检查fast switching在大流量外出端口是否被禁用,如果是,则需要重新使用。
再看一下Fast switching on the same interface是否被禁用,如一个接口配有多个网段并且这些网段间流量很大时,路由器工作在process-switches方式,这种情况下要在接口上执行命令“enable ip route-cache same-interface”。
接下来,用show interfaces和show interfaces switching命令识别大量包进出的端口。一旦确认进入端口后,打开IP accounting on the outgoing interface看其特征,如果是攻击,源地址会不断变化但是目的地址不变,可以用命令“access list”暂时解决此类问题(最好在接近攻击源的设备上配置),最终解决办法是停止攻击源。
应用中遇到的造成网络拥塞的情况还有很多,如大量的UDP流量,可以用解决spoof attack的步骤解决此问题。大量的组播流、广播包穿越路由器,路由器配置了IP NAT并且有很多DNS包穿越路由器等。上述情况造成网络拥塞后,通信双方采取流量控制,丢弃不能传输的包。●图6


【全文end】本文出自 “Jimmy Li我站在巨人肩膀上” 博客,请务必保留此出处http://jimmyli.blog.51cto.com/3190309/1003119
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐