keepalived组播故障排查
2016-10-13 15:55
232 查看
虚拟机无法接收keepalived的vrrp组播现象:
在Ubuntu1404的系统下安装了三台虚拟机,然后配置了一个简单的keepalived+haproxy服务。
结果启动后发现三台虚拟机都配上vip,keepalived.log日志中也未看见error的报错信息。
排查过程:
这些典型的脑裂(split brain)现象,一般来说先检查配置文件是否配的有问题。注意下virtual_router_id 的值。两边是否一样。
然后就是大杀器tcpdump出马了。
首先分别在三台机器执行
tcpdump -nn -c 20 -i any host 224.0.0.18
抓取20个VRRP包,正常输出应该如下:
然后再找一台同网段的机器,执行:
tcpdump -nn -i any host 224.0.0.18
收集一段时间(这时候也可以注意下vrid有没有与别人的冲突),发现三台机的vrrp包都抓到了,说明三台机都能成功发出组播来,但是各自都没有收到。
由于手上也没有iperf工具,也没有做其他的排查,但是基本上也知道是内核参数的设置或者网卡的问题了。
原因:
由于这个系统在其他机器上是正常的,检查发现是在使用virt-manager新建虚拟机的时候,选择nat网卡模式,这种情况需要手动新建br网卡,再使用桥接模式才能成功。
补充:
防火墙开放vrrp包:
在Ubuntu1404的系统下安装了三台虚拟机,然后配置了一个简单的keepalived+haproxy服务。
结果启动后发现三台虚拟机都配上vip,keepalived.log日志中也未看见error的报错信息。
排查过程:
这些典型的脑裂(split brain)现象,一般来说先检查配置文件是否配的有问题。注意下virtual_router_id 的值。两边是否一样。
然后就是大杀器tcpdump出马了。
首先分别在三台机器执行
tcpdump -nn -c 20 -i any host 224.0.0.18
抓取20个VRRP包,正常输出应该如下:
15:30:25.406369 IP 192.168.70.99 > 224.0.0.18: VRRPv2, Advertisement, vrid 71, prio 1, authtype simple, intvl 1s, length 20 15:30:25.406440 IP 192.168.70.99 > 224.0.0.18: VRRPv2, Advertisement, vrid 71, prio 1, authtype simple, intvl 1s, length 20 15:30:25.406369 IP 192.168.70.99 > 224.0.0.18: VRRPv2, Advertisement, vrid 71, prio 1, authtype simple, intvl 1s, length 20如果有输出,查看IP后面字段,在本次故障中,这里只有本机的IP,这说明vrrp包是正常发送出去的,但是没有收到其他机器的vrrp包,说明可能接收组播有问题。
然后再找一台同网段的机器,执行:
tcpdump -nn -i any host 224.0.0.18
收集一段时间(这时候也可以注意下vrid有没有与别人的冲突),发现三台机的vrrp包都抓到了,说明三台机都能成功发出组播来,但是各自都没有收到。
由于手上也没有iperf工具,也没有做其他的排查,但是基本上也知道是内核参数的设置或者网卡的问题了。
原因:
由于这个系统在其他机器上是正常的,检查发现是在使用virt-manager新建虚拟机的时候,选择nat网卡模式,这种情况需要手动新建br网卡,再使用桥接模式才能成功。
补充:
防火墙开放vrrp包:
#iptables -I INPUT -i eth0 -d 224.0.0.0/8 -p vrrp -j ACCEPT # iptables -I OUTPUT -o eth0 -d 224.0.0.0/8 -p vrrp -j ACCEPT内核开启转发:
# echo "net.ipv4.ip_forward = 1" >> /etc/sysctl.conf # sysctl -p
相关文章推荐
- Keepalived无法绑定VIP故障排查经历
- Keepalived无法绑定VIP故障排查经历
- 关于组播的DR的工作原理与故障排查思路
- 【交换机】用户点播组播视频卡故障类排查思路及信息收集
- Keepalived无法绑定VIP故障排查经历
- 网站故障排查常用命令【转】
- Atitit. 包厢记时系统 的说明,教程,维护,故障排查手册v2 pb25.doc
- 坑爹坑娘坑祖宗的87端口(记一次tomcat故障排查)
- oracle 故障案例排查
- 大型网站数据库优化和故障跟踪与排查(上篇)
- paip.hql的调试故障排查流程总结
- [Citrix AGEE] AGEE故障排查= =~
- 性能调优之综合篇 - Linux系统性能监控和故障排查利器Sysdig 推荐
- PHP服务故障排查之路
- 模拟磁盘满了删除故障排查
- 线上应用故障排查:高内存占用
- tomcat7+java压测过程中占用CPU过高排查故障和解决办法
- SQL Server 2008性能故障排查(三)——I/O
- keepalived invalid ttl 故障一例 推荐
- 无线局域网故障排查