锐捷78X随机部分用户web认证失败

一、故障现象描述

部分用户web认证提示认证失败,SAM+上无失败原因,portal上记录“认证失败,认证失败”
网络拓扑如下:
拓扑描述: PC通过接入、汇聚交换机连接到核心,PC的网关在核心上, 下联认证全部开在核心上

二、故障排查分析

  1. 用户认证失败,12x(或极简版本)可以通过debug web cli,show web user syslog ip xxxx查看用户认证历史记录:
通过该命令查看设备记录用户认证失败时间节点时的设备记录为unknow error,和研发校对该字段原因,研发反馈服务器认证拒绝的时候,这里的cause就是unknow error;但服务器拒绝的用户,一般会在服务器记录拒绝原因(如用户名/密码失败等),而该时间节点服务器并未记录到,并且在服务器上找个有记录拒绝的用户,在交换机上查询该用户记录发现是有记录到认证拒绝的,因此可以排除服务器拒绝导致用户认证失败。
  1. 通过交换机记录信息无法判定认证失败原因,在服务器上进行抓包查看异常交互报文,抓包过程如下:
      服务器开启抓包
      在portal上观察出现“认证失败,认证失败”的日志后停止抓包,用户名为:23313101081,ip为:172.18.3.91

      筛选报文:portal contains 23313101081,报文序列号为2127025(portal REQ_AUTH),并找到其应答报文,序列号为2127027(portal ACK_AUTH),发现portal返回的认证失败code值为4:

      ④code 4原因解释如下:

  2. 和研发核对认证过程中portal REQ_AUTH过程出现code 4在设备侧具体表现如下几种可能情况:
    1. 认证失败,被radius服务器拒绝
          portal直接拒绝,进行报文筛选‘radius contains 23313101081’并未发现设备发起radius流程,且设备和服务器也均未记录到radius认证记录,此点可以排除
  1. 发起认证时,设备上找不到对应ip的重定向用户
        这种情况主要针对于非正常发起认证流程,通过收藏的认证界面登录;这点已向认证异常学生核实,并未收藏页面且有测试过正常认证流程过程也会出现该种认证失败情况,因此此点也可排除
        另外,针对收藏认证页面的用户,12x有命令进行优化:web-auth portal direct-auth
  1. 设备内部错误,如fp资源满、发起aaa认证失败
  通过show acl res查看各线卡FP资源情况未发现有100%占满因此排除FP满导致用户失败

   对于aaa认证失败用户,研发提供show aaa diag record命令查看认证失败用户记录:

    该认证记录显示:
    method list:用户使用default的认证方法列表进行认证;
    diag reason:方法列表不可用
    实际上客户配置并未配置default认证方法列表,而是使用名称为sam的认证方法列表:
    内部稽查代码,是版本bug导致用户方法调用异常。

三、故障根因说明

版本bug导致,配置使用非default的认证方法列表,概率存在部分用户使用defaulit认证方法列表不存在导致认证失败。

四、故障解决方案

临时规避:
创建default认证方法列表:aaa authentication web-auth default group sam
后台会发送bug通告和预警(还在流程中)
彻底规避方案:
按bug导入主干版本,预计明年Q1发布。
阅读剩余
THE END