锐捷N18010 下联终端 1x客户端报“认证交换机表象已满”

一、故障现象描述

交换机作为网络接入设备,下联终端1x认证时1x认证客户端报“认证交换机表象已满”,且交换机上提示添加该用户失败日志。

二、故障排查分析

  1. 1x认证客户端报错(影响大概10个终端),导致无法认证上网,修改mac可以恢复正常,修改回故障mac故障复现。
  2. 进一步查看设备mac表项,未超出设备mac学习容量。非1x客户端提示的交换机表项已满的情况,说明故障与用户mac地址有关,有可能是设备上mac残留导致。
  3. 进一步查看1x用户表项失败的SSC_PROCESS日志,该日志说明nacm给scc返回了失败 ,返回值-2,表示数据库内存不足
查看指令:execute diagnose-cmd hardware 0 0 more /tmp/proxy/defout/ssc_process
  1. 进一步排查报错原因,SCC这边的认证用户表要保存到pgsql 数据库中。在添加这故障用户的时候发现数据库中已经存在该用户mac数据,因此没有继续认证,并返回报错日志。
收集指令:execute diagnose-cmd hardware 0 0 more /tmp/proxy/defout/ssd_process
  1. 进一步查看数据库信息,以下日志表示数据库存在断联。
收集指令:execute diagnose-cmd hardware 0 0 more /tmp/proxy/defout/ssd_process
断联的有以下几点原因:
现场排除1、2、4三点,判断设备文件系统存在问题,并通过拷贝文件至设备耗时92分55秒的测试,进一步佐证设备文件系统存在异常,从而判断设备引擎存在问题。
  1. 在业务低峰期,获取客户授权,通过过设备主备引擎做切换操作。主备引擎切换后,设备2/M2升级为主引擎使用,发现1/M1无法识别。
  2. 判断1/M1存在硬件问题,建议送修该引擎。

三、故障根因说明

由于1/M1引擎卡存在硬件问题,导致设备数据库出现断联,在认证用户下线时数据库断联导致无法将数据库中的用户表项删除,因此导致部分认证用户数据残留,并出现无法认证的现象。

四、故障解决方案

临时规避手段:修改终端mac地址可以临时做规避。
解决方案:替换1/M1卡。
阅读剩余
THE END