Page 19 - 网络电信2024年10月刊
P. 19

e)对于温冷存储,主要考虑性价比,应配置高密度、大容              b)样本面。采用Spine-Leaf两级无收敛架构以满足带宽
量的硬盘。可以选择传统的分布式对象存储,或者采用配置多             需求,通信协议RoCEv2可满足时延需求,通常样本面接入交换
盘位大容量机械硬盘的高密度新型Diskless架构存储设备。          机端口为100G。GPU服务器通过该网络平面访问高性能文件热存
                                        储。
     2.4 前瞻组网、无损传输
      当前运营商已经部署了布局广泛的通算资源以及运力充沛               c)业务面/管理(存储)面。业务接入交换机端口通常为
的网络资源。在部署智算中心的过程中,运营商可充分发挥已             25G,且上下行收敛比一般不超过1∶2.5,业务接入交换机之间
有的资源优势,主要的组网策略如下。                       的互联带宽建议大于等于单台业务接入交换机上行带宽的1/2,
      a)充分考虑和东部地区数据的网络通道。智算中心的数据        业务汇聚交换机之间的互联带宽建议大于等于单台业务汇聚交
多来自于人口密集、经济活跃、互联网业务深入的东部热点地             换机上行带宽的1/2。
区,在组网中,智算中心要打通和东部热点地区的网络通道,
使能训练数据、推理数据的传输。                              2.5 统一运维、全量监控
      b)集群内的组网以终为始,长远规划。不同组网方式存在              智算中心应具备算力、网络、存储统一运维能力,统一管
扩容上限,需以终期算力规模确定配套的网络设备,形成终期             理监控集群的训练服务器、存储和网络交换机设备,提供资源
规划方案,并结合近中远期需求进行一次性建设或分期实施,             管理、性能监控、告警监控、光模块监控、日志分析、作业路
在最大限度发挥算力效能的同时,预留扩展能力。                  径、健康检查、故障诊断等集群运维功能,具体功能要求建议
      c)广域跨集群训练要慎重。为满足训练时GPU服务器集        如表3所示。
群的通信,用于并行通信的网络平面按照1∶1的收敛比进行组
网,同时也因交换机缓存的限制,交换机之间的部署距离最远              表3 智算中心运维管理功能建议
为2km。如果要开展广域跨集群组网,按照1∶1的收敛比进行
拉远,以1024 GPU卡为例,在2个训练中心各部署64台GPU服务
器,即512卡,按照英伟达A100或昇腾910B所需要的200G网络,
参数面接入交换机下行到服务器为512个200G、上行到参数面汇
聚交换机为256个400G,DC间需要256条400G链路,成本巨大;
如果按照2×400 Gbit/s互联带宽(即有一定收敛比),则数据
发送总时延将增加近12.5天,按GPT-3训练时间30天计算,将增
加40%的训练时间,且未考虑网络设备出现数据包丢失和重传的
问题。
      基于大模型组网需求和上述策略,智算中心典型组网方案
如图2所示,分为参数面、样本面、业务面和管理(存储)面4
个平面。

 图2 智算中心典型组网方案

                                              基于上述管理能力,形成对训前和训中的有力支撑。在训
                                        前阶段,可提前检查运行环境和组件状态,降低任务运行失败
                                        的概率;在训中阶段,具备分钟级的故障感知以及任务隔离能
                                        力,对于中断的任务,可联动断点续训,进行任务恢复。

      a)参数面。采用RoCEv2或IB协议实现无损转发,Leaf作为      3 结束语
接入节点的网关独立部署,通过200GE链路与训练服务器互联。
Leaf之上可以部署一层或两层Spine作为汇聚,每层网络之间               随着人工智能技术的快速发展,大模型训练对智能算力的
按1∶1进行收敛。充分利用RoCEv2和IB协议,实现流量负载均        需求呈指数级增长,促进了大规模智算中心的建设。智算中心
衡,防止传统基于流的五元组进行hash机制失效导致负载不均           与传统云资源池在布局、建设及维护方案上存在显著差异。本
和网络吞吐下降、集群业务性能下降。                       文针对智算中心的建设提出了一系列策略和方案建议,以应对
                                        大模型发展带来的算力、存储和组网需求的挑战。

                                              首先,智算中心的选址应考虑自然资源丰富的地区,同
                                        时靠近业务和数据密集区域,以确保算力资源的有效利用。其
                                        次,针对算力需求,建议发展多元算力供给,兼顾多元芯片和
                                        单一芯片的使用,同时考虑GPU芯片的迭代更新,以适应未来
                                        业务的发展趋势。在存储策略方面,运营商应充分利用大数据
                                        技术优势,实现数据资产的增值,并做好存力和运力的协同规

网络电信 二零二四年十月                            21
   14   15   16   17   18   19   20   21   22   23   24