您的位置:首页 > 运维架构

史上最闹心的WDS部署问题解决方案

2017-10-27 13:49 204 查看
背景:

公司网络架构升级,上了一套锐捷的网络设备(含核心交换机和二三层交换机),同时启用了网络接入认证(Portal认证),需要用AD账号才能接入,非认证机器无法访问内外网网络,只能在同网段进行通信(跟没网有什么区别)

核心交换机:192.168.0.10

DHCP和AD:192.168.0.5

WDS服务器:192.168.6.250(前期);192.168.0.6(后期)

客户端:192.168.6.0/24

问题:

1. 先在6段搭建了wds服务器,然后在6段接入一台客户端,进行测试,发现ok,服务器正常。

2. 然后在0段,起了一个wds服务器(0.6),发现不能识别0段的wds服务器,客户端还是直接连接到了6段wds服务器,然后就把6段的服务器给停用了,发现客户端还是无法识别到0.6这台WDS服务器。

3. 为了验证0.6这台WDS服务器的服务是否正常,于是把客户端拿到0段网络,连接测试OK,可以正常使用wds服务。

4. 此时基本可以确定是网络问题,通过上网查询,说是需要配置DHCP中继和DHCP服务器上配置Option66 67选项,分别指出wds部署服务文件下载地址和wds服务器地址。

此处参考文档:点击打开,文档很详细的说明了在什么情况下配置66、67,也讲解了这两种选项的功能。

5.. 测试发现添加Option 66 、67也不行,这时猜想是否是网络本身的问题,于是采取以下测试:

5.1 拿了一个锐捷的三层交换机,配置一个核心段、配置一个客户端段、配置一个WDS服务器端

5.2 在交换机上开启DHCP服务,在DHCP上配置Option 66、 67和一个至关重要的命令:NextServer(用于指明Wds服务器地址)。

5.3 配置好后,发现WDS服务正常, 说明WDS服务器和跨网络传输没有问题。

6. 重新在正式环境中进行测试发现还是不行(正式环境下不需要配置NextServer命令,因为正式环境中配置有DHCP中继),客户端和WDS服务器进行通信时,一到获取FTP传输时,就报错,此时没有思路。

7. 针对以上问题,思考前后发现没有什么能够调试的了,只能采取刨根问题模式了,开始在测试环境下抓一个完整的客户端和WDS通信的包,再在正式环境下抓一个报错的包,最后交给锐捷的工程师进行包分析。

8. 三天后,给出的反馈是

当核心交换机接收到,非核心网段的DHCP-Request请求时,核心交换机的Snooping不记录MAC地址和Vlan标签,直接在核心丢弃。

这就导致了WDS和客户端在进行通讯时,就会在这个环境终端。

9. 针对此问题,最后在核心交换机配置了no ip dhcp snooping vlan x(x为核心网段的vlan号),配置此配置后,发现已经认证过的机器,进行WDS装机时,可以使用。

10. 新的问题又出现了,我们在使用WDS服务时,更多的使用时新机器或者是离职退出认证的机器,这时发现机器不认证没法进行WDS装机。首先想到的方法是放行需要进行通信的服务器(含DHCP、WDS),这样任何一台客户端都不需要进行认证就可以和WDS服务器进行认证,可以使用服务,但是实际操作时,发现还是到FTP下载时,又中断连接。

11. 针对这个新的让人头疼的问题,直接进行抓包,让锐捷的工程师进行数据包分析。

12. 三天后给出的结果是因为WDS服务会用到4011端口,这个端口在锐捷的核心交换机中,认为这是一个不常用的端口,所以不做snooping记录,这样的结果就和上边的问题一样了。但是这次不能把每个段的snooping个no掉,所以只能把这个Bug交给他们的研发进行解决。

13. 三天后给了一个解决方案,

一:客户端在服务器同一个网段

二:放弃portal认证

三:等待核心交换机的补丁

看到这三个方案,前两个不扯淡呢,只能选择第三个方案。

14. 一个星期过去了,说是补丁出来了,进行补丁更新,可以解决以上的问题。只能进行补丁更新了,目前还在测试中。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息