Page 38 - 网络电信2024年10月刊
P. 38

光通信

     2.4 小结                               全光网[4]具备高品质、确定性、高安全、低时延、低抖动
      实验结果显示,物理网络的参数和服务器端侧参数都会对     等优势,是实现RDMA无损拉远的理想技术,可视为新型算力协
长距离RDMA的吞吐量产生影响。其中,距离是影响RDMA吞吐量     同互联的最佳解决方案。通过全光网络承载提供高品质、高可
的最重要因素之一,随着距离的增加,RDMA的吞吐量会逐渐降       靠的算网保障,可有效保证长距传输时RDMA的高吞吐量,以实现高效
低;网络侧丢包/误码也会对RDMA的吞吐量产生影响,当发生丢      算力协同。因此,构建全光算力网方案需要从以下几个方面展开。
包时,RDMA的Go Back N机制需要从丢包的位置重新发送后续的
全部数据,这导致业务的有效吞吐量显著降低;服务器端侧队              3.1 Mesh化组网架构
列对(QP)数量也会对RDMA的吞吐量产生影响,QP数量越多,           以算力为中心,规划“1ms-5ms-20ms”覆盖从城域至枢纽
RDMA吞吐量就越高;服务器端侧的块大小也是影响RDMA吞吐量     的多级时延圈,通过确定性链路带宽、时延和可用率,以及网
的因素之一,较大的块大小可以提高RDMA的吞吐量。           络端到端硬隔离、安全可靠品质实现分布式算力节点间Mesh化
      根据上述特征,为了保证RDMA数据传输的效率,防止拥    连接。这种连接方式具备灵活高效调度能力,使算力能效最大
塞、无效重传、时延不稳定导致的性能下降,传输链路应具备         化。具体如图8所示。
确定性的长距离无损能力。                         图8 算力节点间组网架构示意
      a)传输链路应具备稳定的低时延能力,从源端到宿端光层
一跳直达,尽量减少电交换设备,以实现极致低时延,从而最               算力节点间互联采取Mesh化、立体化拓扑进行组网,全面
大化传输效率。                             部署OXC,通过联动OTN实现光电协同高效调度。链路路由去行
      b)传输链路应保持低误码率,误码率越低越好,以避免因    政化,减少路由迂回,实现最低的网络时延。枢纽内算力互联
误码导致的丢包、闪断等重传问题,从而确保性能的稳定。          以400G/800G系统为主,枢纽间算力互联以单波400Gbit/s的系
      c)传输链路要避免拥塞,应尽量使用确定性的无拥塞管道    统为主,同时具备向单波800Gbit/s及更高速率演进的能力,频
传输,防止网络设备拥塞导致丢包影响业务,产生无效重传。         谱从C波段扩展到L波段,单纤容量得到显著提升(相比当前提
      d)传输链路应具备与端侧协同的能力,传输设备应能与服    升4~8倍以上),单位比特的能耗大幅降低,最大化机房、光
务器端侧之间互通状态信息,当端侧能够感知到物理层状态参数信息      缆等基础设施的利用率。
时,就能灵活调整RDMA发送参数,从而实现长距离高吞吐量传输。
      e)传输链路提供超大带宽能力,缩短搬移周期,促进数字         3.2 光电协同提供波长级超大带宽,并支持端网协同
经济的高速发展。                            实现最大吞吐量

    3、确定性光传输广域RDMA解决方案                    网络需要端到端的波长级调度能力,通过在部分站点预
                                    留端口资源,并与超级备波资源一起构建站点资源池化能力,
      如图7所示,当前算力中心之间有2种互联方式:一是通     以支持波长在任意方向的无阻塞调度。在网络进行波长级调度
过互联网出口互联,这种方式容易受到互联网拥塞、丢包的影         或者工作保护路径倒换后,网络的时延等变化需要通知端侧,
响,从而导致RDMA广域传输性能严重劣化;二是通过专线方式       端侧RDMA根据变化后的时延等调整RDMA的参数(如QP数、块大
互联,这种方式可以解决互联网拥塞等问题,但数据中心内部         小、RDMA MTU),以确保RDMA的最大吞吐率。光电交叉协同示
经过大量的交换机及服务器处理转发,也会导致RDMA广域传输       意如图9所示。
性能受限。以某超算为例,DCN内需要经过约15跳节点处理才能       图9 光电交叉协同示意
到DC专线出口路由器节点,导致转发处理时延长。

 图7 算力中心互联方式

      为了实现RDMA广域高性能传输,算力互联网络架构需要优
化:构建算间全光高速平面,将DCN网络的Spine/leaf节点直连
OTN光传输设备,OTN设备基于物理层参数数据与端侧业务参数
协同,实现高吞吐长距离传输。

52 网络电信 二零二四年十月
   33   34   35   36   37   38   39   40   41   42   43