Page 16 - 网络电信2024年10月刊
P. 16
运营商专栏
运营商智算中心建设思路及方案
童俊杰1,申佳2,赫罡1,张奎2
1.中国联合网络通信集团有限公司,北京100033 2.中讯邮电咨询设计院有限公司郑州分公司,河南郑州450007
摘要:人工智能训练的计算复杂度逐年猛增,所需的智能算力从每秒千万次运算增加到数百亿
次,甚至进入千亿级别,促进了大规模智算中心的建设。智算中心主要满足智算算力的需求,其布局、
建设及维护方案与传统的云资源池存在较大差异,当前运营商对智算中心的布局以及详细方案并没有
统一的建议和参考。分析了大模型发展带来的算力、存储、组网的需求挑战,对运营商智算布局以及算
力、存储、网络、维护管理等提出了相应的策略和方案建议。
关键词:人工智能;智算中心;基础设施;建设思路
前言 定为大模型[1]。大模型遵循的三大统计特征如下。
a)Scaling Law。模型表现赖于模型规模、计算量和数据
人工智能聊天机器人ChatGPT、AI编程工具GitHub
CoPilot、图像生成系统Stable Diffusion、视频生成系统Sora 量,这些因素之间呈现幂律关系[2]。
等生成式人工智能(Generative AI,Gen- AI)应用和工具产品 b)Chinchilla Law。模型大小和数据量要同等比例扩展,
的出现,为文本创建、图像视频生成、代码生成以及研发流程
等工作带来了全新的智能体验,极大地提升了生产力,提高了 即数据量需达到参数量的20倍,模型训练结果才能达到饱和[3]。
生产水平。 c)智能涌现。只有训练计算超过1022或训练损失足够低
Gen-AI应用的出现离不开大模型的支持。大模型是基于海 时,才会出现智能涌现,即在典型人工智能任务上的能力大幅
量参数进行自监督学习的预训练模型,凭借更强的学习能力、 提升,而和具体模型无关[3-4]。
更高的精准度以及更强的泛化能力,正在成为人工智能技术发
展的焦点。随着大模型的快速成熟,其参数规模呈百万倍增 上述三大统计特征揭示了,随着参数模型量越来越大,
长,随之而来的是算力需求的剧增,芯片算力的增长速度与模 模型对训练所需算力的需求越来越大,随着Sora等多模态视频
型参数规模的增长存在剪刀差,推动了超大规模智算集群的建 模型的兴起,参数量规模剧增,OpenAI的GPT-4以及Google的
设。 Gemini Ultra都宣称达到了万亿级参数[5]。参数量剧增导致训
练所需的数据量越来越大,有预测认为,到2026年文本数据将
作为基础设施建设者和新质生产力的推动者,电信运营商 被训练完,图像数据将在2040年前后被用完,合成数据将会是
正积极推进智算布局。本文基于大模型的发展趋势和需求,结 未来数据的主要来源[6],数据量规模会再一次量级跃迁,对存
合运营商的特定优势,提出了智算集群布局以及算力、存储、 储的规模和性能带来更大的挑战。此外,智算集群的规模也从
网络和维护管理方面的策略和方案建议。 百卡发展到万卡,甚至十万卡级别,对网络通信的带宽和时延
要求越来越高。
1 大模型的发展趋势和需求分析
1.2 算力需求和挑战
1.1 大模型发展的趋势 在Transformer模型结构中,算力需求与模型参数规模、数
虽然大模型的概念已经深入人心,但是目前没有明确界定 据量具有相关性,具体如表1所示。
标准来判定模型为小模型还是大模型。根据模型表现和模型算 按照上述关系,以GPT-3 175B的参数量(1746亿)为例,
力需求,业界一般认为一个经过充分训练的百亿参数的模型认 其训练算力的需求为6×174.6B×300B=314000 EFLOPS。若采用
910B(376 TFLOPS@FP16)集群,按照GPU利用率为30%,训练28
天,则需要约1150张910B GPU卡。
18 网络电信 二零二四年十月