存储交换机推荐配置及方法介绍

2023-05-31 13:26| 来源: 网络整理| 查看: 265

产生背景

2016年人机围棋大战Alpha Go的胜利向全世界强势宣告，以AI（Artificial Intelligence）为代表的第四次工业革命来临了。越来越多的企业将AI视为数字化转型的下一站，AI时代数据中心的使命正在从聚焦业务快速发放向聚焦数据高效处理进行转变。为了提升数据处理的效率，HPC高性能计算、分布式存储、AI人工智能等当今热门应用要求数据中心网络具有零丢包、低时延、高吞吐的能力。然而传统的基于TCP/IP协议栈的网络通信由于在数据拷贝等关键环节资源消耗较大并且时延过高，无法满足对网络性能的高要求。

RDMA（Remote Direct Memory Access，远程直接内存访问功能）利用相关的硬件和网络技术，使服务器的网卡之间可以直接读内存，最终达到高带宽、低时延和低资源消耗率的效果。但是RDMA专用的InfiniBand网络架构封闭，无法兼容现网，使用成本较高。RoCE（RDMA over Converged Ethernet）技术的出现有效解决了这些难题。RoCE即使用以太网承载RDMA的网络协议，有两个版本：RoCEv1是一种链路层协议，不同广播域下无法使用；RoCEv2是一种网络层协议，由UDP封装，可以实现路由功能。

当前高性能计算、分布式存储、人工智能等应用均采用RoCEv2协议来降低CPU的处理和时延，提升应用的性能。然而，由于RDMA的提出之初是承载在无损的InfiniBand网络中，RoCEv2协议缺乏完善的丢包保护机制，对于网络丢包异常敏感。同时，这些分布式高性能应用的特征是多对一通信的Incast流量模型，对于以太交换机，Incast流量易造成交换机内部队列缓存的瞬时突发拥塞甚至丢包，带来应用时延的增加和吞吐的下降，从而损害分布式应用的性能。

解决思路

华为抓住AI时代数据中心RDMA代际切换机遇，创新地打造了下一代智能无损低时延的数据中心网络解决方案—AI Fabric，依靠两级AI智能芯片和独特的智能拥塞调度算法，实现RDMA业务流的零丢包、高吞吐和超低时延，加速AI时代的计算和存储效率，最终获得专网的性能、以太网的价格，整体ROI达到45倍，为未来的数据中心构建一个统一融合的高效数据中心网络。

AI Fabric主要功能介绍

海量存储场景主要使用了AI Fabric中的PFC死锁监控功能、PFC 死锁预防功能、无损队列的缓存空间优化功能也称为 VIQ（Virtual Input Queue）虚拟输入队列功能和动态ECN门限功能。

PFC死锁监控功能

PFC死锁的各个场景可知，一旦出现PFC死锁，若不及时解除，将威胁整网的无损业务，为此，AI Fabric为每个设备提供了 PFC 死锁监控的功能，从死锁检测、死锁判定、死锁控制和死锁恢复几个过程对 PFC 死锁进行监控。

PFC 死锁预防功能

AI Fabric提供了PFC 死锁预防功能，可以对于流量特征进行识别，例如流量路径等信息，提前通过分配优先级等方式，改变 PFC 反压的路径，让 PFC 反压帧不会形成环路。

无损队列的缓存空间优化功

无损队列的缓存空间优化功能也称为 VIQ（Virtual Input Queue）虚拟输入队列功能，可以通过自动或手工方式对缓存和门限进行设置。

动态ECN门限功能

AI Fabric提供了动态ECN门限功能，通过对转发的网络流量进行分析，根据大小流占比的芯片状态数据（如：队列深度、队列发送速率、芯片缓存利用率等）来动态调整无损队列的ECN门限值，在尽量避免触发网络PFC流控的同时，尽可能的兼顾时延敏感老鼠流和吞吐敏感大象流。老鼠流占比高时，设置低的ECN门限，保证多数老鼠流的低时延性。大象流占比高时，设置高的ECN门限，保证多数大象流的高吞吐性。

【本文地址】

存储交换机推荐配置及方法介绍

存储交换机推荐配置及方法介绍

今日新闻

推荐新闻