锐捷路由器内存利用率高排查方法

一、故障现象

RSR路由器内存利用率高

二、组网拓扑

三、可能原因

1、检查是否属于正常现象
2、检查是否内存泄漏

四、排查步骤

步骤一:检查设备内存是否已耗尽

1)登陆到设备,获取内存信息(如下2种方法任选一种即可)。
Console口连接设备,键盘输入后,SecureCRT或超级终端上是否存在回显,如有回显,登陆设备并执行show memory (2次)
Telent或SSH远程连接并登陆到设备,执行Show memory (2次)
2)查看详细内存占用情况。如果console口输出如下结果之一,则证明内存已经被泄露完毕,系统无法正常申请内存,通常此时设备已经不能正常工作,业务中断。
not enough memory! cli execute fail!
*Sep 6 08:54:14: %SCHED-0-NOSTACK: Could not allocate 40960 bytes for stack from memory.
由于已经影响客户业务,且客户需要立刻恢复业务,无法提供信息收集的情况下,可直接重启设备,观察是否能够恢复。
如果执行show menory,可以正常输出结果,则说明还有一定内存,可维持系统正常运行。
示例:
Ruijie#show memory
System Memory Statistic:
Free pages: 2898
watermarks : min 433, lower 866, low 1299, high 1732
System Total Memory : 128MB, Current Free Memory : 14580KB
Used Rate : 89%
遇到上述内存利用率较高(例如达到70%以上),但设备仍然可以正常工作,或内存利用率低于70%,但担心设备存在异常的,则继续下面的排查步骤。

步骤二:检查是否属于正常现象

由于功能变化,例如单播路由条目增加、组播表项增加等其他功能调整均会导致内存一定程度增加,但此类增加通常比较平稳,内存利用率不会大幅增长,例如1K路由约占用2M内存,由于网络扩容改造,设备多学习到了1K条路由,会导致内存减少2M左右,属于正常现象,并非故障。
也可通过show memory命令的输出,观察Free Memory的变化。如果变化不明显,建议间隔几个小时或1天,再行查看。仍然变化不明显的,可间隔1个星期或1个月再行收集show memory信息进行对比。通过以上观察,对于内存长期无明显变化的,可以判定为属于正常现象,非故障。
Ruijie#show memory
System Memory Statistic:
Free pages: 2898
watermarks : min 433, lower 866, low 1299, high 1732
System Total Memory : 128MB, Current Free Memory : 14580KB
Used Rate : 89%

步骤三:检查是否内存泄漏

通过show memory的输出观察Used Rate(内存利用率)是否持续递增, 观察Current Free Memory(空闲内存)KB是否不断减少。
示例:
Ruijie#show memory
System Memory Statistic:
Free pages: 2898
watermarks : min 433, lower 866, low 1299, high 1732
System Total Memory : 128MB, Current Free Memory : 14580KB
Used Rate : 89%
如果Free Memory 持续快速减少(每次show 减少2kb左右),则每间隔5-10分钟继续收集show memory信息进行对比。通过以上观察,确认Free Memory 持续减少的(快速或缓慢),再行收集一次如下信息,并请联系4008111000协助处理。
1)执行show memory 连续3次,间隔5S。
2)执行show memory protocols 连续3次,间隔5S。
3)收集基础信息
ter len 0
show run
show version
show slot
show version slots
show memory
show log
show ip fpm stat (show 3次)
show ip fpm count (show 3 次)
show ip interface brief
show interface (如果怀疑有攻击,可以show 3 次)
show vrrp brief
show ef-rnfp all
show ip route
show ip route count
show ip ospf neighber
show ip ospf data
show ip rip peer
show ip rip data
show ip rip inter
show ip bgp neighbor
show bgp all summary
ter no len
提示:如果内存利用率已经达到90%以上且持续递增,如果客户担心设备内存耗尽导致业务中断,可和客户商定在对客户业务影响最小的时间进行设备重启,重启完毕后再按照步骤3中的信息收集一次,并联系4008111000协助处理。

五、信息收集

信息收集命令参考
  ter len 0
  show memory (间隔5s show 2次)
  show ip fpm stat (间隔5s show 2次)
  show ip fpm count (间隔5s show 2次
  show run
  show version
  show slot
  show version slots
  show memory
  show log
  show ip fpm stat (show 3次)
  show ip fpm count (show 3 次)
  show ip interface brief
  show interface (如果怀疑有攻击,可以show 3 次)
  show vrrp brief
  show ef-rnfp all
  show ip route
  show ip route count
  show ip ospf neighber
  show ip ospf data
  show ip rip peer
  show ip rip data
  show ip rip inter
  show ip bgp neighbors
  show bgp all summary
  ter no len

六、总结与建议

  内存利用率高时,需注意以下几点:
  1、检查是否属于正常现象
  2、检查是否内存泄漏
阅读剩余
THE END