锐捷S5310对接SMP做有线web认证,认证成功后异常下线

一、故障现象描述

SMP对接5310做有线web认证,出现偶发终端认证成功后异常下线,SMP显示下线原因编号为9
场景拓扑

二、故障排查分析

  1. 排查设备配置无异常,接口均未drop,crc等丢包问题;
  2. 通过服务器显示下线原因为code9,说明是NAS出错,要求中断会话。因此判断终端下线原因在NAS侧;
  3. 通过debug web cli,show web-auth syslog ip x.x.x.x两条指令查询终端对应故障时间的上下线原因,显示原因为未知,因此无法判断该终端下线原因
  1. 进一步查看设备log,scc发现存在认证返回安装用户失败的日志,说明可能设备存在表项异常导致认证表项安装失败。
  1. 进一步收集底层fp信息(指令debug scc dump err),存在error SS_E_RESOURCE,进一步证实fp存在表象安装异常
  1. 进一步查看log,存在tcam硬件资源表项位置分配错误
  1. 经过内部复现,判断触发用户下线是硬件位置计算错误,导致硬件下发失败,触发用户下线
  2. 必现步骤:
    1. 上线3个认证用户(1X)
    2. 配置web认证
    3. 配置1个web-redircet
    4. 下线2个用户(要是后上线的那两个)
    5. 配置1个web-redirect
    6. 删除2个web-redirct(清空web-redri配置)
    7. 上线两个用户(此时会失败)

三、故障根因说明

必现步骤:(具体逻辑还需要跟研发进一步沟通,计划12.16日完善) 1. 上线3个用户,端口不一样 创建3条PCL,占据cell 0、1、2 2. 配置web认证 创建3条PCL 两条WEB-REDIRCT,PCL优先级一样,4条PCE,占据cell 3、4、5、6,PCL范围是3-6 一条NAC,占据cell 7 3. 配置1个web-redircet 新建一条WEB-REDIRECT PCL3,与之前的优先级一样,1条PCE,优先级是10,占据CELL 7 ,PCL范围是3-7。NAC移动到cell 8 4. 下线2个用户(要是后上线的那两个) 释放cell 1、2 5. 配置1个web-redirect PCL3新加一条PCE,优先级是20,需要在底部添加,检查PCL范围内最近的空闲位置是CELL 2,PCL3范围调整到2-7,由于优先级低于cell 7的表项,触发表项依次向上移动,此时WEB-REDIRCT1、2的PCL范围和PCE已经不一致 6. 删除2个web-redirct(清空了) 删除PCL3(如果PCL3还存在,那追加位置的时候会根据这个2-7进行检查,不会出现异常) 7.上线两个用户(此时会失败) 检查低优先级的PCL范围是3-6,认为1、2是空的,但由于步骤5中已经将cell3的表项移动到cell 2,出现冲突 问题原因: PCL相同优先级时,范围允许交叉,本条PCL的PCE数量增加触发PCL范围调整时,不会触发其他相同优先级PCL的范围调整。但由于PCE存在优先级,PCL内位置调整时,会移动到其他PCL,导致其他PCL的范围是错的

四、故障解决方案

  1. 临时规避手段:免认证临时恢复;
  2. 彻底解决方案:升级至S53E系列交换机RGOS12.5(4)B0702P4T5的解决版本;
阅读剩余
THE END