Page 37 - 网络电信2024年10月刊
P. 37
丢包。长距离传输虽然会出现误码,但是相干系统自带FEC纠错 会出现时断时续的现象,测试结果显示,当业务丢包率达到万
功能,所以光线路侧丢包主要是由瞬断导致的。 分之六以上,RDMA的吞吐量会直线下降(见表1)。
图4 RDMA协议中对应QP数量或块大小调整示意 表1 丢包率与带宽关系表
以太客户侧的丢包主要原因有:尾纤问题和连接器问题。 2.3 流控机制对长距离RDMA吞吐量的影响
a)尾纤问题:尾纤是用于传输电信号的光纤,如果尾纤 基于优先级的流量控制(Priority-based Flow
质量不佳或者使用不当,就会在信号传输过程中出现丢失、反 Control,PFC)是一种能够有效避免丢包的流量控制技术。PFC
射、噪声等问题,从而导致丢包。例如尾纤损坏或者有污点, 基于优先级的流量控制,将流量按照优先级进行分类,从而实
都可能在信号传输过程中出现丢失现象,从而导致丢包。 现对不同优先级流量的控制。当下游设备的无损队列发生拥塞
b)连接器问题:连接器是用于连接尾纤和设备的接口,如 时,下游设备会通知上游设备停止发送该队列的流量,从而实
果连接器质量不佳或者使用不当,就会在信号传输过程中出现 现零丢包传输。
丢失、反射、噪声等问题,从而导致丢包。例如连接器损坏或 在长距离传输场景中,当宿端发生拥塞时,当前典型的DCN
者有污点,都可能在信号传输过程中出现丢失现象,从而导致 内交换机是小缓存配置,无法支持2倍RTT的流量缓存能力。因
丢包。 此,流控信号需要长距离传输的网络设备进行响应,这就要求
光纤瞬断是光线路侧丢包的典型问题,常见的瞬断原因包 OTN传输设备具备PFC流控响应能力,能缓存网络上流量并保证
括如下3种。 不丢包,同时具备逐级向上反压流量的能力,从而与DCN交换机
a)光纤质量问题。光纤质量问题是导致光纤瞬断的主要原 协同实现长距离无损。
因之一,光纤的质量直接影响其传输能力和可靠性。如果光纤 在实验室中构造如图6所示的测试场景。首先,通过2台
存在质量问题,如损坏、污染、弯曲度过度过大等,就会导致 仪表构建1条25Gbit/s的背景业务流,然后从服务器1发起流量
光纤传输过程中出现短期中断。 为80Gbit/s的RDMA业务到600km外的服务器2。因为原宿节点交
b)环境因素。环境因素包括温度、湿度、光照等。在某些 换机端口和OTN均为100G端口,所以在宿端Spine交换机将业务
环境下,如高温、低温、高湿度、低光照等,光纤的传输性能 流转发到TOR交换机时,总带宽超过100Gbit/s,会出现流量拥
会受到影响,从而导致光纤瞬断。 塞。实验结果如下。
c)人为因素。人为因素包括光纤的意外弯曲、拉断、碰撞 图6 实验室RDMA测试连接示意
等,这些因素可能会导致光纤出现短期中断。
由于RDMA对丢包敏感,一旦光纤瞬断导致丢包频繁出现, a)OTN不开启PFC流控:由于宿端DCN网络发生拥塞并导致丢
会引起RDMA协议层Go Back N机制重传丢包后的所有报文,导致 包,RDMA的重传进一步加剧了拥塞,导致更多的丢包,服务器
RDMA吞吐率急速下降(见图5)。 业务的有效带宽从80Gbit/s降到9Gbit/s。
图5 光纤瞬断对RDMA传输的影响
b)OTN开启PFC流控:服务器丢包现象消失,由于OTN收到
实验室通过在光路上增加噪声的方式,模拟线路出现大量 宿端Spine交换机发送的拥塞信号,首先响应PFC流控,并通过
误码造成光纤瞬断的情况。通过抓包观察,发现此时RDMA业务 Buffer缓存正在发送的流量。同时,它生成新的PFC信息,向
上游发送流控帧通知,逐级反压到达服务器端侧,端侧降速以
达到端网协同,防止无效重传。实验室测试结果显示,开启
OTN流控功能后,服务器业务的有效带宽从9Gbit/s提升到
76Gbit/s。
网络电信 二零二四年十月 51