Page 17 - 网络电信2024年10月刊
P. 17
表1 算力需求和模型参数规模 Checkpoint周期保存参数对数据存取带来的挑战。
b)多模态数据统一访问的挑战。对于视频和图片多模态数
按照上述测算,对于万亿参数模型,则需要万卡级规模集
群;对于十万亿参数模型,则需要十万卡级规模集群。因此, 据输入,会对原始文件进行特征提取并以小文件的形态保存,
为了实现通用人工智能AGI,国内外互联网厂商纷纷开始“囤 因视频和图片原始特征复杂,处理后数据量倍增。此外,为便
卡”。在算力需求倍增的同时,带来如下挑战。 于后续对多模态原始和特征数据的存取,需要建立相应的快速
检索机制和内容审核能力。
a)对显存容量和性能的挑战。GPU卡中的高带宽存储器
(High Bandwidth Memory,HBM)是基于3D堆栈工艺的高性能 c)对数据安全的挑战。复杂繁多的数据处理环节,导致
DRAM,其本质是将多个DDR芯片堆叠后和GPU一起封装。目前, 数据处理存在诸多安全风险,包括数据隐私泄露、数据违规侵
AI算力增长速度远高于显存容量和性能的增长速度,以英伟达 权、数据不可追溯、数据操作不合规等。
A100、H100为例,虽然H100较A100的算力增长了将近3倍,但显
存容量没增长,带宽只增长了近2倍,这对分布式显存调度提出 1.4 组网需求和挑战
了更高的要求[8]。此外,当前HBM的主要厂商为海力士、三星 在大模型训练和推理中,主要的关键网络和相关通信挑战
和美光,国产GPU卡可能无法使用最新的HBM技术,显存能力演 如下。
进受限。 a)训练数据到训练计算集群的网络通信。当前数据源和
数据存储主要靠近人类居住密集和业务热点区域,和自然土地
b)对散热和资源的挑战。从GPU卡的演进来看,GPU模型的 资源、电力资源相对丰富的西部地区距离较远。在训练时,需
算力和功耗成比例增长,昇腾910B芯片TDP为392W,单台训练服 将训练数据传输到西部节点,这类数据对实时性要求不高,可
务器功耗达到5.2kW。以GPT-3为例,训练所需电量达到1287 MW 以采用快递硬盘或者互联网专线进行传输,以节约成本,但互
(碳排放为502t),每天推理需要用电50万kWh,冷却设备所需 联网专线因业务模式的问题,当前成本相对较高。以传输0.7PB
的水达到70万L,对电力资源和水资源都是巨大挑战[9]。 数据为例,采用2.5寸的3.68 TB硬盘进行数据存储,需要约
50块硬盘,如果采用航空快递,1000km的快递成本预计为1000
c)对GPU跨厂家协同、跨代际演进的挑战。跨厂家GPU因为 元、时间预计为24h;若租赁1 Gbit/s有保障的互联网专线,按
软件生态、底层算子不同,导致上层模型无法一次编译后异构 照30000元/月的价格(按照每月30天,每天费用为1000元)计
执行。即使采用同一厂家的GPU,也因为不同型号GPU的算力、 算,约1.5h可完成数据传输。
显存和通信能力甚至算子优化不同,共集群训练时面临性能损 b)训练时单GPU服务器的卡间通信。为提升大模型的训练
失、无法发挥优势的问题。 速度,一般会采用数据并行、流水线并行和张量并行,其中张
量并行的并行度一般和单GPU服务器的卡数量等同,张量并行对
d)对供应链保障的挑战。受美国芯片禁令的影响,国内将 卡间实时通信的带宽和时延带来挑战。当前卡间通信的结构主
无法购买国外先进的GPU产品,国内GPU的产能和生态面临巨大 要有总线结构(例如昇腾HNCCS通信方式)和交换结构(例如英
挑战。 伟达NvLink通信方式)2种,总线结构因布线复杂和制程工艺要
求较高,带宽和扩展性受限。国产卡较多采用总线结构,卡间
1.3 存储需求和挑战 互联带宽远低于国外产品,同时单机内卡规模数一般不超过8,
AI大模型的训练和推理都会涉及到数据的存取。在训练之 导致张量并行度受限。
前的数据预处理阶段,需要对海量数据进行处理,包括格式对 c)训练时GPU服务器集群的通信。数据并行和流水线并行
齐、归一化、去重、隐私保护、异常值处理等。训练阶段涉及 对集群内机间实时通信的带宽和时延带来挑战。为了减少计算
海量小文件的训练数据存取和训练过程中参数文件的周期性保 单元的闲置,需要在流水线单元的计算周期内完成前序数据的
存;在推理阶段,需要读取本地存储的模型参数,并对实时样 同步和通信,一般要求在百毫秒级完成数据通信,按照十GB级
本进行处理,输出推理结果。 的通信量,集群内机间带宽应至少达到100 Gbit/s,且随着单
AI大模型的训练和推理对存储带来的挑战如下。 卡算力和吞吐的增加,对机间带宽的需求也同步增加。此外,
a)对数据访问性能的挑战。一方面是大量小文件带来的 为了避免数据重传,一般要求集群内组网为无损网络。
元数据访问挑战,另一方面则是海量小文件并发快速读取、
2 智算中心的部署策略和方案建议
2.1 绿色集约、高效布局
当前智算中心有2个典型选址策略:第一,优先选择“东数
西算”枢纽节点,尤其是西部自然资源丰富的地区,土地和电
力资源优势明显;第二,聚焦北、上、广、深等业务和大模型
产业活跃的城市与地区[10],靠近业务和数据。运营商因可信
安全优势和充沛的骨干传输资源,在布局上具有天然优势,且
基本符合上述策略,其中中国联通优先在上海、北京、广东、
内蒙古开展“一基地三高地”智算梯次布局;中国移动规划部
署“4+N+31+X”数据中心,在内蒙和林格尔建设大型单体智算
网络电信 二零二四年十月 19