Page 19 - 网络电信2024年6月刊
P. 19

表2 我国近年出台的部分鼓励智算中心建设相关政策

表3 规划建设中的智算中心(部分举例)              图2 智算中心技术架构

础设施层主要包括机房环境、网络环境、存储设备、以GPU芯片          3.2.1 算力能力分析
和服务器为代表的计算设备等,可实现将异构算力、数据、存            智算业务往海量参数的大模型方向发展已经成为一个主流
储、算力网络等转化为有效的算力与服务资源。智能作业层基      技术演进路径。如图3所示,现在自然语言处理和多模态大模型
于基础设施层提供的算力,利用人工智能算法和智能算力调度      参数已经达到了千亿级别,而且还在增加。AI大模型在上线前
进行通用或者行业大模型的训练和推理。应用服务层,基于多      需要在智算中心完成预训练和微调,大模型参数增加给智算中
类综合平台能力提供数据、算力和算法服务。             心算力能力和规模提出了更高要求。
                                       大模型训练和推理所需算力不同。训练过程需要部署高性
     3.2 智算中心规划建设关键要点            能GPU服务器搭建多机多卡训练集群,GPU卡间高速互联,满足
      智算中心规划建设工作是一项系统工程,需要综合考虑计  大模型训练等高算力需求。推理过程对算力的要求不高,数据
算、存储、网络、平台、基础设施、设备等多种因素。同时既      中心或者边缘DC部署的GPU服务器即可满足要求。为评估承载大
需要满足国家、行业有关数据中心的标准规范,也要满足智能      模型的智算中心算力规模,需测算大模型完成训练需要多少算
算力发展需求。根据行业实践经验,本文重点分析影响智算中      力,本文以参数量1750亿的GPT-3为例测算。2021年Narayanan
心规划建设的算力能力、算力能耗和智算网络三方面因素。       D等学者发表论文,给出GPT-3模型算力需求的计算方法并得出
                                 GPT-3一次迭代的计算量为4.5EFLOPS,完成全部训练计算量为
                                 430ZFLOPS[9]。以上只是理论上数据。

                          网络电信 二零二四年六月        15
   14   15   16   17   18   19   20   21   22   23   24