Page 36 - 网络电信2024年10月刊
P. 36

光通信

要专用的IB网卡和IB交换机。                                           2、RDMA在广域算力互联的影响因素研究
      RoCE(RDMA over Converged Ethernet):基于以太网的
                                                            RDMA的吞吐率受到诸如距离、丢包、QP数量和传输块大小
RDMA技术,需要交换机支持无损以太网传输,此时要求服务器                         等多种因素的影响。本文基于全光网络的长距环境,对RDMA的
使用RoCE网卡。                                             吞吐量进行了研究。验证环境的组网如图2所示,通过OTN全光
                                                      无损网络提供低于10-15误码率的高质量长距传输链路,包括2条
      iWARP(Internet Wide Area RDMA Protocal):基于TCP/  不同长度(200m和600km)的光纤链路,这2条链路的带宽均为
IP协议的RDMA技术,由IETF标准定义,目前使用较少。                         100 Gbit/s。基于这条OTN链路使用性能测试工具(IB write)
                                                      进行吞吐量测试。
 图1 RDMA 3种传输模式对比

                                                      图2 RDMA吞吐量影响测试连接

      目前,IB主要在DC内应用,因为其链路层采用Credit机                        2.1 距离/时延对长距RDMA吞吐量的影响
制,所以无法实现满速率的长距传输。因此,本文主要讨论Ro                                为了测试长距带来的时延对RDMA吞吐量的影响,采用OMSP
CE对网络的要求及相应的解决方案。在RoCE网络中,为了确保                        保护方式,构建2条不同长度的光路,一条为200m,另一条为
网络传输过程中不丢包,需要构建无损以太网。目前,主要采                           600km,默认将OMSP保护组工作在短路由上,即服务器1和服
用2种机制:PFC机制和ECN机制[3]。PFC机制是交换节点逐级向                    务器2之间的业务流工作在短距离连接上,链路误码率为10-
上游设备反压,上游设备缓存报文,若Buffer达到阈值,则会                        15,服务器1和服务器2通过IB write打流,链路最高吞吐量为
继续向上游反压;ECN机制是报文在网络节点中发生拥塞并触发                         100Gbit/s。具体如图3所示。
ECN时,使用IP报文头的ECN字段标记数据包,这表明该报文遇                        图3 不同距离下对长距离RDMA影响测试
到网络拥塞,并将它发送给源端服务器,源服务器收到后,通
过降低相应流发送速率,缓解网络设备拥塞,从而避免丢包。                                 然后,通过触发LOS将工作路由切换到长路径上,再次用
                                                      IB write打流测试。结果显示,吞吐量只有原来的1/10,即约
     1.2 RDMA应用于广域算力互联的主要挑战                           10 Gbit/s。这表明,随着传输距离的增加,ACK回复变慢,导
      RDMA技术最典型的落地业务场景是高性能计算(HPC/                     致网卡出口缓存被占满,业务吞吐率下降。在调整IB write参
AI)。为了满足超长距高性能算力互连要求,传统广域基于                           数的情况下,增大RDMA块大小或者QP数量,RDMA在600km长距离
TCP/IP传输协议的互联网络,面临3个方面的挑战:首先,高性                       下达到满速100 Gbit/s(百分百吞吐量)。因此,在链路无损
能计算互联单次突发数据量为MB/GB级别的大流,而TCP/IP机                      的情况下,RDMA协议需要根据传输距离设置合适的QP数量或块
制需要把数据切分为小分片(MTU默认1500),导致有效载荷                        大小,以保证长距离吞吐量不下降(见图4)。
低;其次,互联网网络采用逐层收敛结构,业务传输跳数多,
网络上的数据突发和拥塞都会造成不可预知的时延、抖动和丢                                2.2 丢包对长距离RDMA吞吐量的影响
包。为保证业务端到端可靠传输,RDMA的丢包重传机制额外耗                               长距离丢包的主要原因有2类,一类是以太客户侧的丢包,
费了网络带宽,降低了业务吞吐率,进一步导致性能下降。第                           例如尾纤和连接器出问题时导致的丢包,另一类是光线路侧的
三,原生RDMA技术对丢包敏感,难以直接用于有损的广域网络
传输,因此,需要设计高品质无收敛的网络互联架构与技术,
让RDMA数据流可以直接承载在具有确定性品质的无损网络上,
中间不再经过多级交换汇聚设备,以减少拥塞,提升吞吐率;
考虑到算力互联间带宽以100G~400G的大颗粒为主,适合在源
点和宿点之间构筑波长级的一跳直达连接,以避免网络拥塞和
丢包导致的效率降低;而广域拉远带来的传输时延是客观存在
的,通过确定性的传输时延,与端侧RDMA协议协同调整RDMA传
输参数,也是提升RDMA广域传输效率的有效手段。因此通过架
构、技术、协议等多方面的优化和改进,可以有效提高RDMA跨
广域传输吞吐率。

50 网络电信 二零二四年十月
   31   32   33   34   35   36   37   38   39   40   41