什么是iReliable

华为星河AI数据中心网络打造磐石高可靠架构,通过iReliable技术实现全场景稳定可靠,保障客户业务0中断。iReliable技术,在链路、设备、网络三个层级提供全方位的高可靠保障。

为什么需要iReliable?

智能化已渗透至生活的方方面面,从刷脸支付、智能客服到高清视频流、自动驾驶,这些便捷的数字服务背后,是人工智能的蓬勃发展、计算芯片与网络基础设施的强力支撑。数据中心的使命已发生根本转变,从传统的数据存储和计算中心,转变为企业的数字中枢和智能引擎。与此同时,数据中心网络也从被动的传输管道,升级为智能服务的提供者,这无疑给数据中心网络带来了巨大挑战。

业务连续性是重中之重,网络需提供可靠基石

数据中心承载着企业的核心,任何网络故障都可能导致业务中断。例如,银行、交通等场景对网络的高可用性要求近乎苛刻。

  • 针对银行、能源、交通等重点行业,各国政策法规对业务连续性提出了明确要求。以中国为例,银监发[2011]104号文明确了银行业业务连续性中断事故的定级标准:Ⅰ级(特别重大运营中断事件)、Ⅱ级(重大运营中断事件)、Ⅲ级(较大运营中断事件)。
  • 针对金融行业,业务按重要性分为A+类、A类、B类和C类,其中A+类和A类业务需实现同城双活部署,确保RPO=0,数据中心切换数据不丢失。然而,业务中断的实际损失远超监管要求,数据中心可靠性已成为刚需。

不同行业,数据中心每小时的停机将带来巨大的经济损失;如在金融行业,据统计,每小时的停机将产生高达600+万美元的损失。因此数据中心网络需要提升整体可靠性,保障业务0中断。

什么是iReliable
IT系统业务中断影响

 

AI技术蓬勃发展,要求网络具备极高可靠性

随着AI技术的快速发展,尤其是大模型的不断涌现,算力需求呈现指数级增长。从早期的小规模模型到如今的千亿甚至万亿参数大模型(如GPT系列、百度文心一言等),其训练过程需要处理海量数据和复杂运算,对数据中心的算力规模和性能提出了极高要求。以GPT-4为例,其训练所需的算力远超传统数据中心的承载能力,必须依赖配备高性能GPU集群的专门智算中心。同时,随着AI应用场景的不断拓展,推理需求也在迅速增长。在智能客服、智能安防、自动驾驶等领域,实时推理能力是保证应用效果的关键。例如,在自动驾驶场景中,车辆需要在极短时间内完成传感器数据的推理分析并做出决策,这要求数据中心能够提供低延迟、高并发的推理服务。

在高性能计算和AI训练等场景中,网络的丢包率和延迟必须达到极高的标准,一次微小的丢包就可能导致任务性能下降或时间延长。此外,云上承载着企业的核心业务,要求网络具备极高的可靠性。任何一次人为操作失误或缓慢的故障响应,都可能造成巨大经济损失。因此,网络需要具备自动预测、发现和修复故障的能力,以确保业务的连续性和稳定性。

iReliable能解决什么问题?

华为iReliable技术致力于解决数据中心网络架构中的可靠性问题,主要应对链路中断、设备故障、网络静默故障等导致的业务中断,从而提升网络可靠性。以下是iReliable技术在不同层级上解决的关键问题:

网络级的可靠性挑战

当网络中出现静默故障导致的业务会话级异常,例如链路故障、转发表项异常、转发器件异常、端口物理状态显示UP但无法转发流量以及配置错误等问题。这类故障被业界称为网络运维的“癌症”,没有显性异常且不会触发告警,定位困难。

目前,业界主要通过流量分析器采集数据,检测异常,然后依赖人工逐一排查和修复故障。然而,这种传统的排障方式效率较低,通常需要数十分钟到数小时的时间,严重影响了业务连续性。

设备级的可靠性挑战

随着业务发放速度的持续提升以及虚拟化技术(如VM、容器等)的引入,网络流量的不确定性显著增加。然而,当前的网络运维手段仍主要依赖传统网管和命令行方式进行查看和监控,分钟级的网络监控手段已无法满足业务对秒级体验保障的要求。这种被动式的故障感知模式,往往导致运维效率低下。

在故障定位方面,主要依赖专家经验,通过多种辅助工具进行逐段定界、逐流分析和抓包定位,这种方式不仅效率低下,而且难以满足快速响应的需求。

什么是iReliable
组网中故障链路切换

在典型的CLOS组网中,如上图所示,交换机之间都有多条路径,当一条链路出现故障的时候,通过感知端口状态、路由收敛、转发路径切换等操作,完成流量从故障链路到备用链路的收敛。但是这个时间一般在秒级。然而在AI场景里面,每次通信时间在毫秒级别,秒级时间内正常情况下已完成了多轮通信。如果依靠传统的路由收敛方式,将极大的影响AI计算效率。

除了上述的挑战,对于M-LAG传统升级方式,升级过程中流量秒级中断,无法满足业务连续要求。

链路级的可靠性挑战

传统数据中心网络的聚合链路是单设备和单设备间的对接,若链路出现故障或者对端设备故障,设备或服务器将无法与对端设备继续进行通信。为了应对链路高可靠性的要求,需要能满足其中一台设备整体故障,业务流量仍能通过另一台设备正常转发。

传统存储网络通常使用FC,其当前带宽普遍为16/32G。在同城双中心的传输场景下,若客户需要实现400GE的互联需求,将需要部署十条甚至几十条FC链路,这将导致链路成本的极大浪费。相比之下,以太网技术虽然能够实现100GE及400GE的互联带宽,但在长距离传输中会面临新的挑战。具体而言,长距离传输会导致网络时延的显著增加,而时延的增加会直接影响数据中心内部的反压技术的滞后性。以一个标准的70公里同城数据中心为例,其网络传输时延通常会超过1毫秒。这种时延水平将导致当前数据中心内部的存储反压机制几乎完全失效,无法满足长距无损传输。

iReliable架构介绍

针对上述的挑战,iReliable技术从链路级、设备级、网络级三个层面构建了磐石高可靠架构,实现三级极速切换,任意单点故障业务0中断。iReliable的关键技术包含如下内容。

表1-1 iReliable的关键技术

分类 关键技术
网络级高可靠 DPCF、主备/双活出口容灾
设备级高可靠 M-LAG无损升级、DPFR
链路级高可靠 M-LAG、长距无损算法
  • 网络级高可靠:针对数据中心内部的静默故障,华为DPCF技术,实现网络静默故障毫秒级感知和切换,确保业务连续性;在多数据中心场景下,iReliable还提供网络级主备或双活出口容灾方案,实现业务的自动切换。
  • 设备级高可靠:华为DPFR技术,通过设备数据面直接感知故障,确保毫秒级故障收敛,业务连接不中断,任务运行无影响;此外,设备M-LAG无损升级,支持通过控制器实现智能引流,整个升级过程可以实现业务0丢包。
  • 链路级高可靠:在链路层级,通过M-LAG技术,实现接入侧链路的毫秒极速快切,确保链路故障时业务0中断;同时,通过长距无损算法,支持长距同城存储双活,安全加密数据0泄露。
什么是iReliable
iReliable三级高可靠架构

iReliable网络级高可靠技术

 

下面详细介绍iReliable网络级高可靠技术,包括DPCF、主备/双活出口容灾。

DPCF

针对静默故障,DPCF(Data Plane Crossing Faults数据面故障穿越)技术,无需分析器和人工参与,自动感知网络故障,涵盖路由黑洞、ARP表项异常等业界无法自动检测的故障场景,然后根据预置策略换路,实现秒级路径切换。在金融、存储以及超算等关键场景,保障业务秒级恢复,效率是业界的上千倍。

网络故障感知

如下图所示,TCP流量传输过程中,发送端发送数据报文给接收端,接收端成功接收到数据报文后,会回复给发送端一个ACK报文,表示确认接收到ACK确认号前面的所有数据。如果超过一定时间未收到ACK报文,发送端设备会重传数据报文。

设备针对ACL规则匹配的TCP流量建立流表,如果设备重传数据报文的时间间隔超过用户设定的故障检测时间,则判定超时故障,从而实现网络故障感知功能。

什么是iReliable
TCP的确认机制

网络故障恢复

如下图所示的传统三层组网,服务器采用独立IP接入,Leaf交换机部署为独立的三层网关,承担二、三层流量转发,Spine层部署为独立的三层设备,与Leaf之间形成ECMP,实现流量负载分担

这种组网主要应用于金融、存储和超算等无损场景。网络中一旦出现静默故障,中断时间长,对上层业务影响严重。比如对于在线交易类型应用,如果出现持续丢包会导致交易失败,甚至可能引发对端协议栈连接超时,应用性能会出现明显大幅下降。部署DPCF功能后,当业务流转发异常时,设备能够自动感知故障,同时快速切换到其他ECMP成员,保障业务秒级恢复。

什么是iReliable
DPCF传统三层组网

主备/双活出口容灾

主备出口:在Multi-PoD场景中,可以在多个数据中心都部署出口,出口之间形成主备关系,多个数据中心可共享主备出口。

什么是iReliable
Multi-PoD场景中的主备出口示意图

双活出口:在Multi-PoD场景中,可以在多个数据中心都部署出口,出口之间形成双活关系,本DC流量优先从本DC出口进出,故障情况下出口可以切换至另一个DC。

什么是iReliable
Multi-PoD场景中的双活出口示意图

在多个数据中心和Pod之间,通过网络级主备/双活出口容灾,实现业务的自动切换,确保业务连续性。

iReliable设备级高可靠技术

下面详细介绍iReliable设备级高可靠技术,包括M-LAG无损升级、DPFR

M-LAG无损升级

M-LAG无损升级是指在M-LAG成员设备升级前将流量切换到备份链路,避免流量丢失,实现业务不中断的升级方式。

如下图所示,交换机Leaf1和Leaf2组成M-LAG,Leaf1、Leaf2设备通过动态路由协议接入网络,服务器通过M-LAG双归接入。

什么是iReliable
M-LAG无损升级示意图

对Leaf1、Leaf2进行M-LAG无损升级的思路如下:

  1. 在Leaf1上调整路由Cost、调整路由发布优先级和设置下行接口Down等,将Leaf1的流量切换至Leaf2;
  2. 确认Leaf1的流量切换至Leaf2后,进行Leaf1升级;
  3. 待Leaf1升级完成后,恢复Leaf1的路由Cost、路由发布优先级、下行接口Up等设置,将流量切换回Leaf1;
  4. 参考上述步骤进行Leaf2升级,最终完成整个M-LAG设备组的升级。

DPFR

DPFR(Data Plane Fast Recovery,数据面故障快速恢复)技术,可以做到毫秒级收敛,提供基于数据面的本地快收敛或远程快收敛。特性包含故障快速感知、故障本地快速收敛、故障通告生成、接收和中继处理、故障远程快速收敛以及表项老化处理。针对在线交易类关键应用场景,尽量做到应用无感知的故障快速收敛效果,即在链路故障发生时业务性能无明显下降。

下面通过以下两个典型场景介绍DPFR的功能特性。

  • 场景1:本地快速收敛,该场景的特征是有多个下一跳。如下图所示,GPU3访问GPU1的流量,到达Leaf2以后,Leaf2的下一跳可以选择Spine1或者Spine2。当Leaf2->Spine2的路径发生故障时,可以在本地快速切换到Leaf2->Spine1路径。
    什么是iReliable
    DPFR本地快速收敛
  • 场景2:远端快速收敛,该场景的特征是有一个下一跳。如下图所示,GPU1要访问GPU3,路径是Leaf1->Spine2->Leaf2。当报文到达Spine2以后,实际只有一条链路可以到Leaf2。在此情况下,如果Spine2->Leaf2路径出现了故障,Spine2会通过发送通知报文给Leaf1,Leaf1在本地完成路径切换,切换到Leaf1->Spine1->Leaf2路径。
    什么是iReliable
    DPFR本远端快速收敛

iReliable链路级高可靠技术

下面详细介绍iReliable链路级高可靠技术,包括M-LAG、长距无损算法。

M-LAG

传统的聚合链路是单设备和单设备间的对接,若链路出现故障或者对端设备故障,设备或服务器将无法与对端设备继续进行通信。M-LAG的出现解决了上述问题,它是将M-LAG系统不同设备上的端口聚合到一个逻辑接口中,即使其中某台设备故障或其中一条聚合链路出现故障,也不会导致聚合链路完全失效,从而保证了数据流量的可靠传输。M-LAG在提升链路可靠性的同时还具备如下优势。

  • M-LAG系统的两台设备在逻辑上被虚拟成一台设备,它本身提供了一种没有环路的二层拓扑,逻辑组网更清晰,链路利用更充分。
  • M-LAG两台设备可以独立升级,实现效率高,业务秒级中断的目标。

因此,对组网可靠性要求高,对升级过程业务中断时间要求高的场景推荐使用M-LAG。

什么是iReliable
M-LAG示意图

长距无损算法

在短距iLossless智能无损交换算法基础上,增加了时空变量,突破四维iLossless-DCI算法,解决长距无损丢包难题。基于大数据的卷积预测将随机流量确定化,提前应对流量变化,从而达到在整个数据原端提前业务拥塞、流量拥塞来做流量的提前控制,实现了以太网在长距范围的无损传输。同时,CloudEngine系列交换机支持MACsec加密,保障跨数据中心数据输出的0泄露。

什么是iReliable
长距无损算法

iReliable的应用

 

助力某车企实现网络升级零丢包,保障生产连续性

某车企的生产网络7x24小时不间断运行,每分钟的停机都将造成数万美元的损失。在传统网络模式下,客户网络部门需要与业务部门反复协调操作窗口,且每次设备升级都会不可避免地带来20-100ms的丢包,严重影响生产业务的连续性,难以满足客户的高可靠性要求。

华为iReliable技术,真正实现了链路切换业务0中断、网络升级0丢包的目标,获得了客户的高度认可。该技术不仅显著提升了网络可靠性,更大幅降低了维护人员在业务割接操作中的工作强度和风险,为企业的持续稳定生产提供了有力保障。

实现某银行业务永续,保障金融级可靠性保障

某银行在现网改造前,面临核心网络设备老化、运维复杂度高、业务连续性难以保障等多重挑战。现网其他厂商设备临近生命周期终止,原厂服务支持不足,导致硬件可靠性下降,故障修复周期延长,威胁业务连续性。同时,传统网络依赖命令行配置与人工排障,网络扩容或业务变更需数周时间,无法匹配金融业务快速迭代需求;传统网络人工排障效率低(小时级),故障修复周期长,威胁业务连续性。

华为通过搬迁工具,实现了业务从思科传统网络到华为SDN平滑升级。华为iReliable技术增强了全网的可靠性,任意节点故障毫秒级收敛,保障金融业务0中断 ,满足高并发交易与实时清算的严苛要求。

阅读剩余
THE END