Page 15 - 网络电信2024年5月刊

P. 15

表6 Infini Band和Ro CE组网方式对比以大模型和智算中心为代表的智算基础设施是电信运营商
立足大模型时代乃至智能时代的根本。电信运营商在现有的连
智算中心内网络。为满足大规模训练集群高效的分布式计接和算力资源基础上，建设智算基础设施，满足未来大模型训
算，大模型训练流程中通常会包含数据并行、流水线并行及张练和推理需求，打造继云业务之后的第二增长曲线尤为重要，
量并行等多种并行计算模式，不同并行模式下均需要多个计算因此加快布局建设智算中心布局是大势所趋。电信运营商建设
设备间进行集合通信操作[10]。另外，训练过程中通常采用同步智算中心定位与对内自用和对外提供服务使用，从布局及选址
模式，需多机多卡间完成集合通信操作后才可进行训练的下一评估角度，应综合考虑大模型应用场景、能耗及建设成本、网
轮迭代或计算，因此智算网络需要满足高带宽、低时延、零丢络资源等影响因素，实现智算中心效率及成本最优。
包、超高稳定性和网络自动化部署等要求。目前业界一般采用
InfiniBand或RoCE组网，提供超低时延无损算力网络，确保集从布局选址方面，优先在“东数西算”八大枢纽节点，
群内训练POD间及计算、存储的高速互联。两种组网方式对比如尤其是国家西部、北区枢纽节点布局集中化、大规模、低成本
表6所示。大型智算中心，至少具备上千PFLOPS算力规模。其次是聚焦北
京、上海、广州、深圳、成都等大模型产业活跃城市，积极联
南北向网络。一般表现为突发性大带宽（低频）和多线合地方政府、上下游合作伙伴，优先采用合作建设、合作运
接入，可以在数据中心内部预留多线接入间，满足客户远端操营、部分自建等方式，加快智能算力中心布局建设，具备至少
作，传输、下载训练数据等需求。几百到几千PFLOPS算力规模。

智算中心间网络如图4所示。智算集群对网络时延需求为微从建设运营方面，面对智算中心的高密度、高能耗、高成
秒级，因此均为单节点运行，智算中心间对双活、低时延和大本，传统机房条件、制冷方式很难满足，应加快液冷等节能新
带宽等高质量网络无特别需求。在后续区域算力交易、算力调技术应用落地，提升智算中心能效。同时大型训练资源池需要
度等业务，保证智算中心间网络可达即可。部署高性能服务器，应考虑大规模高功率机架需求和机房空间
合理利用原则，提前进行机柜改造。目前典型配置英伟达8卡
4 运营商布局建设智算中心建议 A100服务器额定功耗达到6.5kW，采用H800芯片服务器的全风冷
机柜功率达到10kW，采用H800芯片服务器的全液冷机构功率已
到40kW。因此参考业界典型智算一体化交付方案，原则单机柜
功率应达到10～40kW才能满足需要，并提前进行高功率机柜和
液冷机柜改造。

从训练和推理算力部署方面，首先是训练算力池，建议电
信运营商集团层面应统筹考虑智算中心的建设布局，在低成本
园区统一建设几个算力规模几千P的大型公共训练池，满足为超
级客户提供大规模低成本智算训练或自用大模型训练需求。省

图4 智算中心典型组网模型和业务流量示意图

网络电信二零二四年六月 17

10 11 12 13 14 15 16 17 18 19 20