Page 37 - 网络电信2024年10月刊
P. 37

丢包。长距离传输虽然会出现误码,但是相干系统自带FEC纠错       会出现时断时续的现象,测试结果显示,当业务丢包率达到万
功能,所以光线路侧丢包主要是由瞬断导致的。               分之六以上,RDMA的吞吐量会直线下降(见表1)。

 图4 RDMA协议中对应QP数量或块大小调整示意            表1 丢包率与带宽关系表

      以太客户侧的丢包主要原因有:尾纤问题和连接器问题。          2.3 流控机制对长距离RDMA吞吐量的影响
      a)尾纤问题:尾纤是用于传输电信号的光纤,如果尾纤           基于优先级的流量控制(Priority-based Flow
质量不佳或者使用不当,就会在信号传输过程中出现丢失、反         Control,PFC)是一种能够有效避免丢包的流量控制技术。PFC
射、噪声等问题,从而导致丢包。例如尾纤损坏或者有污点,         基于优先级的流量控制,将流量按照优先级进行分类,从而实
都可能在信号传输过程中出现丢失现象,从而导致丢包。           现对不同优先级流量的控制。当下游设备的无损队列发生拥塞
      b)连接器问题:连接器是用于连接尾纤和设备的接口,如    时,下游设备会通知上游设备停止发送该队列的流量,从而实
果连接器质量不佳或者使用不当,就会在信号传输过程中出现         现零丢包传输。
丢失、反射、噪声等问题,从而导致丢包。例如连接器损坏或               在长距离传输场景中,当宿端发生拥塞时,当前典型的DCN
者有污点,都可能在信号传输过程中出现丢失现象,从而导致         内交换机是小缓存配置,无法支持2倍RTT的流量缓存能力。因
丢包。                                 此,流控信号需要长距离传输的网络设备进行响应,这就要求
      光纤瞬断是光线路侧丢包的典型问题,常见的瞬断原因包     OTN传输设备具备PFC流控响应能力,能缓存网络上流量并保证
括如下3种。                              不丢包,同时具备逐级向上反压流量的能力,从而与DCN交换机
      a)光纤质量问题。光纤质量问题是导致光纤瞬断的主要原    协同实现长距离无损。
因之一,光纤的质量直接影响其传输能力和可靠性。如果光纤               在实验室中构造如图6所示的测试场景。首先,通过2台
存在质量问题,如损坏、污染、弯曲度过度过大等,就会导致         仪表构建1条25Gbit/s的背景业务流,然后从服务器1发起流量
光纤传输过程中出现短期中断。                      为80Gbit/s的RDMA业务到600km外的服务器2。因为原宿节点交
      b)环境因素。环境因素包括温度、湿度、光照等。在某些    换机端口和OTN均为100G端口,所以在宿端Spine交换机将业务
环境下,如高温、低温、高湿度、低光照等,光纤的传输性能         流转发到TOR交换机时,总带宽超过100Gbit/s,会出现流量拥
会受到影响,从而导致光纤瞬断。                     塞。实验结果如下。
      c)人为因素。人为因素包括光纤的意外弯曲、拉断、碰撞     图6 实验室RDMA测试连接示意
等,这些因素可能会导致光纤出现短期中断。
      由于RDMA对丢包敏感,一旦光纤瞬断导致丢包频繁出现,         a)OTN不开启PFC流控:由于宿端DCN网络发生拥塞并导致丢
会引起RDMA协议层Go Back N机制重传丢包后的所有报文,导致  包,RDMA的重传进一步加剧了拥塞,导致更多的丢包,服务器
RDMA吞吐率急速下降(见图5)。                   业务的有效带宽从80Gbit/s降到9Gbit/s。
 图5 光纤瞬断对RDMA传输的影响
                                          b)OTN开启PFC流控:服务器丢包现象消失,由于OTN收到
      实验室通过在光路上增加噪声的方式,模拟线路出现大量     宿端Spine交换机发送的拥塞信号,首先响应PFC流控,并通过
误码造成光纤瞬断的情况。通过抓包观察,发现此时RDMA业务       Buffer缓存正在发送的流量。同时,它生成新的PFC信息,向
                                    上游发送流控帧通知,逐级反压到达服务器端侧,端侧降速以
                                    达到端网协同,防止无效重传。实验室测试结果显示,开启
                                    OTN流控功能后,服务器业务的有效带宽从9Gbit/s提升到
                                    76Gbit/s。

网络电信 二零二四年十月                        51
   32   33   34   35   36   37   38   39   40   41   42