您的位置:首页 > 其它

Cisco UCS TroubleShooting

2014-04-15 12:53 281 查看
No.0
Challenge
default keyring's certificate is invalid,reason:expired

Solution
1,确认UCSM – Admin – All – Timezone Management 的ntp服务支持,时间区域都对
2,ssh登陆,
VFC01-A# scope security
VFC01-A /security# scope keyring default
VFC01-A /security/keyring# set regenerate yes
VFC01-A /security/keyring* # commit-buffer
commit-buffer 后 会断开 链接,并询问重新加载秘钥确认不?
再次登陆进入查看
VFC01-A /security/keyring# scope security
VFC01-A /security # show keyring detail
Keyring default:
RSA key modulus: Mod1024
Trustpoint CA:
Cert Status: Valid

More Information http://www.vstrong.info/2012/12/05/how-to-regenerate-expired-ucs-manager-certificate/ https://supportforums.cisco.com/discussion/11875066/default-keyrings-certificate-invalid-reason-unknown https://supportforums.cisco.com/discussion/11601616/default-keyrings-certificate-invalid
No.1
Challenge
一个月前刀片,刀框升级到ucs-k9-bundle-b-series.2.2.1b.B,而矩阵没有升级到ucs-k9-bundle-infra.2.2.1b.A,因为某种原因,没有升级;以上是从2.0升级到2.2.1的(没有按照官方的一个版本一个版本升级,属于跳跃升级)
最后的结果是刀片,刀框的board contraller 没有激活 IOmodule没有升级(需要等到矩阵升级后),矩阵所有没有升级。
突然间,风扇狂转,所有风扇狂转达到1w以上,正常应该3k,IOmodule电源指示灯报警,别的都不报警,从ucs manager 和 vcenter上都看不出来,也不报错。。。再疯转会坏的

Solution
把所有都升级到2.2.1,一切都好。。。

More Information

No.2
Challenge
升级后出现serverprofile 的vhba1 vhba2不能匹配到刀片,只有一个刀片式这样的,别的都好,可是既然没有匹配到,这个vhba还在走数,能通信 能使用。。。

Solution:
本来打算解除serverprofile关联,在匹配一下(这样跑raid策略又应为升级后无法关联),结果,重启刀片,一切都好。。。

No.3
Challenge
一日,发现,矩阵中,同一vlan的虚机相互之间ping不通,但是跨vlan之间ping可以ping通,然后在矩阵上ping,刀片,即ESXI的地址,全部 时通时不通,后思科技术支持,认为是DR的问题,我们用了pin-group,接受组播的FI的端口,与发出数据包的pin-group端口不是同一个,所以无法ping通,

Solution
将交叉线断掉,让FI重新选举DR,是的出去和进来的是同一个端口。。。

这个办法治标不治本,因为这个问题根本使我们的网络结构决定的。。。
我们的核心交换机接的FI,而核心交换机采用HSRP,不是数据中心的双active的设计,FI的上联最好是Nexus 堆叠等,一个整体,

More Information
在ESXI上查看有多少的可用的网卡
The ESXi Shell can be disabled by an administrative user. See the
vSphere Security documentation for more information.
~ # esxcfg-nics -l
Name PCI Driver Link Speed Duplex MAC Address MTU Description
vmnic0 0000:06:00.00 enic Up 20000Mbps Full 00:25:b5:00:00:1e 1500 Cisco Systems Inc Cisco VIC Ethernet NIC
vmnic1 0000:07:00.00 enic Up 20000Mbps Full 00:25:b5:00:00:0e 1500 Cisco Systems Inc Cisco VIC Ethernet NIC
vmnic2 0000:08:00.00 enic Up 20000Mbps Full 00:25:b5:00:00:3e 1500 Cisco Systems Inc Cisco VIC Ethernet NIC
vmnic3 0000:09:00.00 enic Up 20000Mbps Full 00:25:b5:00:00:2e 1500 Cisco Systems Inc Cisco VIC Ethernet NIC

以刀片10.208.252.140为例,查看所走路径。。。
UCS-6248-JCPT-A(nxos)# show mac address-table | in 001e
* 1 0025.b500.001e static 0 F F Veth899

查看Designated receiver(接受广播的端口)如下:所有vlan都以23为接受vlan的端口,不同的FI选举出来的DR是不一样的
UCS-6248-JCPT-A(nxos)# show platform software enm internal info vlandb all

vlan_id 1
-------------
Designated receiver: Eth1/23
Membership:
Eth1/24 Eth1/23

vlan_id 2
-------------
Designated receiver: Eth1/23
Membership:
Eth1/24 Eth1/23

vlan_id 3
-------------
Designated receiver: Eth1/23
Membership:
Eth1/24 Eth1/23

vlan_id 252
-------------
Designated receiver: Eth1/23
Membership:
Eth1/24 Eth1/23

vlan_id 4048
-------------
FCOE VLAN: TRUE

查看另vnic 001e 和vnic 002e 的路径 如下图 001e 在A上 002e 在B上
UCS-6248-JCPT-A(nxos)# show mac address-table | i 001e
* 1 0025.b500.001e static 0 F F Veth899

UCS-6248-JCPT-B(nxos)# sh mac address-table | i 002e
* 1 0025.b500.002e static 0 F F Veth905

查看140上的虚机252.100所走的路径,走veth899,说明通过。001e走的,所以
252.100的流量全部走A。。。
UCS-6248-JCPT-A(nxos)# sh mac address-table | i 139b
* 252 0050.568a.139b dynamic 0 F F Veth899

No.4
Challenge
要在B200M3上安装linux 和 windows
好一点的linux 不用直接能识别vnic vhba 不用任何驱动,windows2012 需要安装vnic和vhba驱动
win2008,直接找不到安装磁盘

Solution
驱动如下: http://www.cisco.com/c/en/us/td/docs/unified_computing/ucs/release/notes/VIC/2-1/vicdrivers_21_rn.html https://software.cisco.com/download/release.html?mdfid=283853163&flowid=25821&softwareid=283853158&release=2.1(3g)&relind=AVAILABLE&rellifecycle=&reltype=latest https://supportforums.cisco.com/discussion/11883536/b200-m3-blade-windows-2012-server
No.5
Challenge
code="F1004" https://supportforums.cisco.com/discussion/12324471/ucsm-unable-monitor-storage-blade-after-firmware-update fltEquipmentChassisThermalThresholdNonCritical
Fault Code; F0410
Message:
Thermal condition on chassis [id] cause: [thermalStateQualifier]
Explanation:
This fault occurs under the following condition:
If a component within a chassis is operating outside the safe thermal operating range.

Solution http://www.cisco.com/c/en/us/td/docs/unified_computing/ucs/c/sw/fault/reference/guide/Cisco_UCS_C-Series_Servers_CIMC_Faults/CIMC_Faults.htm
http://www.cisco.com/c/en/us/td/docs/unified_computing/ucs/ts/faults/reference/2-0/UCSFaultsErrorsRef_20.pdf

No.6ChallengeCreating a VLAN Group
Solutionhttp://www.cisco.com/c/en/us/td/docs/unified_computing/ucs/sw/gui/config/guide/2-2/b_UCSM_GUI_Configuration_Guide_2_2/configuring_vlans.html#concept_092ADB0E8656442FA7EB80E3B4632F22
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  ucs