Page 18 - 网络电信2024年10月刊
P. 18

运营商专栏

中心;在中国电信“2+4+31+X+O”的算力布局中,除了内蒙古      存等能力不同,存在木桶效应,无法发挥高性能GPU芯片的效
和贵州2个全国性云基地,还在上海临港部署了万卡智算集群。          能,建议大规模集群选择单一芯片,同时应充分考虑建设交付
                                      周期、未来业务发展趋势、芯片演进计划等因素。对于型号落
      除布局策略外,智算中心在散热模式、机房部署方面还应       后的GPU训练芯片,未来随着多模态模型推理对算力需求的增
充分考虑低碳绿色、集群组网,具体策略和方案建议如下。            加,可用于对视频生成的推理。

      a)优选液冷散热模式。液冷技术可有效降低PUE,提升装          2.3 分层分级、存算协同
机密度,且液冷节点及相关器件(例如光模块)的温度比风冷                 运营商本身拥有较为丰富的数据资源,包括内部IT系统积
节点更低,可有效提升可靠性,降低数据中心的运维成本,提           累的数据,也包括网络运行过程中海量的性能、告警、故障等
高整体经济效益。在智算资源池的建设中,智算训练服务器应           运行数据和用户运营数据。上述海量数据通过运营商骨干网络
优先采用液冷技术。                             进行传输,在汇聚、整合之后形成了特有的数据资产,此过程
                                      积累了数据清洗、数据标注、数据分析、数据可视化、数据传
      b)慎用风液混合模式。GPU集群长时间运行时,GPU卡在风   输等方面的技术。
冷集群的温度可能达到100℃以上,为避免过热带来的故障和风               鉴于上述优势和积累,对数据存储方面的策略建议如下。
险,GPU卡会进行降频处理,如果风、液冷共集群,液冷设备的               a)充分发挥大数据技术的优势。运营商经过多年技术积
GPU卡的高性能就无法发挥最大价值。因此,在智算中心建设前         累,具备在异构硬件之上搭建大数据平台,数据离线批处理和
要做好提前规划,避免不必要的损失。                     实时流处理的能力,同时储备了数据清洗、数据规整、数据治
                                      理的能力。在存储方面,运营商可形成对外开放或可授权的数
      c)单一智算集群的机房不宜过度分散。为便于无损网络组      据资产,并将数据资产与智算服务相结合,实现数据增值。
网部署和后续故障定位,建议Leaf与GPU服务器之间的距离不超             b)做好存力和运力的协同。对于用户数据存储热点区域,
过100m,即两者最好同机房部署;建议Leaf与Spine之间的距离    其存力需求巨大,需要提前做好和智算中心之间的运力提升,
不超过2km,当Spine与Leaf跨机房时,建议将所有Spine部署在  便于训练数据和推理数据的传输。
一侧机房,尽量减少拉远的Leaf数量。                         c)在具体存储资源和能力部署上,对于清洗后的训练样
                                      本、训练中的Checkpoint数据等热数据,以及未清理的海量数
     2.2 多元探索、异构优化                    据、训练好的模型数据等温冷数据,因为两者的访问频率和性
      国内外主要GPU卡的基本情况如表2所示,其中英伟达GPU    能需求不同,需分别考虑其存储方案。
卡在算力、显存、卡间通信、生态等方面处于领先地位,AMD和               d)对于热存储,为保障性能,采用高性能介质NVME SSD,
Intel的GPU卡在算力上逐步追赶,但是在生态上仍存在短板;       建议优选高速并发NAS协议,高带宽接入。考虑到磁盘阵列性价
国内则以昇腾GPU卡为主导,其他国产GPU卡不仅算力不足,在        比和扩展性的问题,后端存储可以采用Diskless架构,其典型
实际规模化部署上也缺乏典型案例。                      整体架构如图1所示。以在智算中心中广泛应用的Lustre/GPFS
                                      等高性能、面向对象的并行文件系统为例,在Diskless架构
 表2 国内外主要GPU厂家和相应型号                   下,Lustre/GPFS 使用“盘即存储”的新型NVMe盘框替换存储
                                      服务器,可实现资源的池化共享、按需分配和扩展,从而提升
      受政策影响,英伟达、Intel等国外芯片厂商的芯片面临无    资源利用率,降低整体成本,同时还可以隔离故障,简化运维
法在中国出售或者改版而导致性能下降的问题,而国产GPU则在         管理。另外,从可靠性的角度来说,由于Lustre的多个OSS缺少
能力和生态上存在差距。                           副本机制,一个客户端或节点发生故障时,存储在该节点上的
                                      数据在重新启动前将不可访问,此时Diskless架构的高可靠优
      根据现状,在算力策略和方案上的建议如下。            势就更为凸显。
      a)积极发展多元算力供给。一方面,应发展多元GPU芯       图1 采用Diskless架构存储设备的热存储方案
片。GPU芯片影响单位智算算力,已经成为制约大模型发展的瓶
颈,鉴于当前国内外政策和GPU发展水平,应积极开展多元算力
芯片适配以及异构算力的管理和调度。另一方面,智算和通算
需紧密结合。AI大模型的前端访问和上层应用离不开通算,而
在训练和推理过程中,AI大模型也需要通算来运行和处理任务
和数据的调度访问。
      b)兼顾多元芯片和单一芯片。多元算力异构必然带来多个
智算软件生态,为模型适配和优化带来挑战,需要进行差异化
考虑。对于超千亿的大模型的训练,因集群规模大、训练时间
长、模型复杂,建议以单一GPU芯片为主;对于百亿十亿等中小
模型,其集群规模在百卡左右,规模相对较小、模型适配相对
简单,可以进行多元芯片探索。
      c)兼顾时效性和芯片演进。GPU芯片在不断迭代更新,对
于跨GPU芯片型号的组网,因为不同型号GPU的算力、互通、显

20 网络电信 二零二四年十月
   13   14   15   16   17   18   19   20   21   22   23