锐捷N18010 部分终端偶发离线后无法认证
一、故障现象描述
偶发不固定终端无法上网,无法弹出portal页面。
设备版本:N18000_RGOS 11.0(4)B19P2
场景拓扑:

二、故障排查分析
-
终端有发起arp请求,但核心学习不到终端arp
-
核查环境无异常,cpp,nfpp无丢包,无环路
-
检查终端侧情况,通过arp -a明确终端没有学习到网关的arp,并抓包确认终端有发出arp请求包
-
检查核心侧arp学习情况,核心为网关,但无法学习到终端的arp。进一步查看快转,对应arp报文被arp spoofing组件过滤了。mac地址为other状态
-
进一步查看认证表项,发现存在认证表项残留,即交换机上该mac地址的的IP依然为上次使用的IP,但是此时终端已经获取了新的IP,认证表项并没有迁移过来。
-
查看设备的snooping表项已成功迁移
-
后经过确认,终端IP变化之后snooping表更新了,但是snooping表没同步更新到web认证表项,导致web认证表项残留,该问题可以确认是通用版本的限制,只有极简版本的才可以同步,但此次存在另外的问题:地址池租期大于无流量下线的时间,理论上终端重新获取地址时,之前的表项也应该无流量下线成功,但是此时终端仍然无法下线故障的终端无流量下线不成功
-
经过研发确认:定位此故障命中了我司的已知软件bug。正常情况下,当下发认证表项时,每张线卡仅安装PHYID属于自己的表项,但由于软件bug的存在,导致每张线卡都会安装终端的认证表项。因此在认证表项下线时,会处理到不属于本线卡的表项,而这种表项对于线卡而言是非法的,因此会终止继续下线其他剩余的表项。对于没有处理到的表项而言就会出现残留现象,故产生此故障现象。
三、故障根因说明
-
原因一:终端IP变化之后snooping表更新了,但是snooping表没同步更新到web认证表项,导致web认证表项残留,该问题可以确认是通用版本的限制,只有极简版本的才可以同步
-
原因二:正常情况下,当下发认证表项时,每张线卡仅安装PHYID属于自己的表项,但由于软件bug的存在,导致每张线卡都会安装终端的认证表项。因此在认证表项下线时,会处理到不属于本线卡的表项,而这种表项对于线卡而言是非法的,因此会终止继续下线其他剩余的表项。对于没有处理到的表项而言就会出现残留现象,故产生此故障现象
四、故障解决方案
升级到极简版本解决,当前的故障终端可以通过清楚残留的表项规避。
阅读剩余
版权声明:
作者:SE_You
链接:https://www.cnesa.cn/4486.html
文章版权归作者所有,未经允许请勿转载。
THE END