锐捷路由器设备异常重启

一、故障现象

设备反复重启,或在启动过程中就打印堆栈信息然后又重启。

二、组网拓扑

三、可能原因

1、供电问题
2、死机问题
3、软件问题
4、安装不到位问题
5、硬件问题

四、排查步骤

步骤一:检查是否是供电问题

查看电源供电插座、线路是否有接触不良现象,供电电压是否不稳定。

步骤二:检查是否为死机问题

请先尝试“设备死机”章节的排查方式,若发现有“对应时间”的死机堆栈,可做相关的信息收集,反馈4008111000定位具体是硬件问题还是软件问题。

步骤三:检查是否为软件问题

方式1:尝试重新升级一个软件版本。可尝试将软件版本升级到最新版本。若升级到最新版本后,就不再重启,故可判断为设备原版本存在软件问题。
方式2:尝试空配置起机。在备份设备配置后,重启设备,在启动初始的时候按“ctrl+c”进入ctrl层,把配置文件重命名为config.bak等文件名,使得设备空配置加载,启动后若不再重启,故可判断为设备原版本存在软件问题(其中部分配置触发了该问题)。

步骤四:检查是否是安装不到位问题

尝试拔插主控引擎(对于箱式设备) 。拔插主控引擎用于排除由于主控引擎安装不到位引起的故障。 若双主控的情况下,可对换主备引擎,判断故障。

步骤五:检查是否为硬件问题

尝试更换硬件 。对于箱式设备,有备用引擎的,可以将备用引擎和主用引擎对调(redundancy forceswitch或者长按原主引擎的OFL到灯灭后拔插原主引擎)。对于盒式设备,进行整机替换。若对调以后之后不再出现故障,则原主引擎/原盒式设备可能存在硬件故障。若对调主备引擎后仍然故障,且排除了软件层面的问题,可能是机框硬件故障。

五、信息收集

信息收集命令参考
ter len 0
show ver
show run
show log
show cpu
show memory
show version
show version slot
show environment
show ip fpm counters
show ip fpm statistics
show ip interface brief
show interface
show clock
show redundancy
show upg
debug support
show exception
show efb
show skb
more /tmp/debug_log.txt
ter no len
dir //把主备引擎最近几天的日志拷贝发出来【重要】
vtty 6/0 //如果能vtty到线卡,在故障线卡上收集exception信息。注意:若是SIP5X载板不进入子卡槽位,需进入载板槽位
en
o l c
ter len 0
show log
debug su
show exception
show skb
show efb
pcie show
more /tmp/debug_log.txt
ter no len
ctrl+x //退出线卡

六、总结与建议

  设备反复重启时,需注意以下几点:
  1、供电问题
  2、死机问题
  3、软件问题
  4、安装不到位问题
  5、硬件问题
阅读剩余
THE END