锐捷N18010 部分终端偶发离线后无法认证

一、故障现象描述

偶发不固定终端无法上网,无法弹出portal页面。
设备版本:N18000_RGOS 11.0(4)B19P2
场景拓扑:

二、故障排查分析

  1. 终端有发起arp请求,但核心学习不到终端arp
  2. 核查环境无异常,cpp,nfpp无丢包,无环路
  3. 检查终端侧情况,通过arp -a明确终端没有学习到网关的arp,并抓包确认终端有发出arp请求包
  4. 检查核心侧arp学习情况,核心为网关,但无法学习到终端的arp。进一步查看快转,对应arp报文被arp spoofing组件过滤了。mac地址为other状态
  5. 进一步查看认证表项,发现存在认证表项残留,即交换机上该mac地址的的IP依然为上次使用的IP,但是此时终端已经获取了新的IP,认证表项并没有迁移过来。
  6. 查看设备的snooping表项已成功迁移
  7. 后经过确认,终端IP变化之后snooping表更新了,但是snooping表没同步更新到web认证表项,导致web认证表项残留,该问题可以确认是通用版本的限制,只有极简版本的才可以同步,但此次存在另外的问题:地址池租期大于无流量下线的时间,理论上终端重新获取地址时,之前的表项也应该无流量下线成功,但是此时终端仍然无法下线故障的终端无流量下线不成功
  8. 经过研发确认:定位此故障命中了我司的已知软件bug。正常情况下,当下发认证表项时,每张线卡仅安装PHYID属于自己的表项,但由于软件bug的存在,导致每张线卡都会安装终端的认证表项。因此在认证表项下线时,会处理到不属于本线卡的表项,而这种表项对于线卡而言是非法的,因此会终止继续下线其他剩余的表项。对于没有处理到的表项而言就会出现残留现象,故产生此故障现象。

三、故障根因说明

  1. 原因一:终端IP变化之后snooping表更新了,但是snooping表没同步更新到web认证表项,导致web认证表项残留,该问题可以确认是通用版本的限制,只有极简版本的才可以同步
  2. 原因二:正常情况下,当下发认证表项时,每张线卡仅安装PHYID属于自己的表项,但由于软件bug的存在,导致每张线卡都会安装终端的认证表项。因此在认证表项下线时,会处理到不属于本线卡的表项,而这种表项对于线卡而言是非法的,因此会终止继续下线其他剩余的表项。对于没有处理到的表项而言就会出现残留现象,故产生此故障现象

四、故障解决方案

升级到极简版本解决,当前的故障终端可以通过清楚残留的表项规避。
阅读剩余
THE END