Page 33 - 网络电信2024年9月刊
P. 33
光通信
面向智算时代的光通信技术发展探讨
刘宇旸,李俊杰,霍晓莉
中国电信股份有限公司研究院
大模型对算力的需求呈指数级增长,促使智算业务飞速发 引入到Spine、Leaf与AI服务器之间,为硬件与软件提供弹性保
展。以生成式预训练(GPT)大模型ChatGPT为例,ChatGPT-6的计 护。
算量(Flops)相较于GPT-4提升了1444至1936倍,所使用的图形
处理单元(GPU)数量,也从数万个GPU,提高至百万个GPU。 然而,随着算力需求的高速增长,未来单点集群将面临算
力不足的问题,且电力供应也将成为大规模智算建设的瓶颈。
因此,人工智能(AI)下的各类智算应用与业务,要求高速 例如,OpenAI为训练ChatGPT-6,需要在美国同一个州部署约
光通信网络具备大带宽、低时延与高可靠等特性以支持算力的 10万张H100 GPU,每张H100 GPU一年的耗电量约为3.74MW h,
发展。同时,也需要高速光通信在组网能力、高速互联、传输 而10万张H100 GPU一年的耗电量就达到了惊人37.4万MW h。同
时延、可靠传输等方面持续革新。 时,如何将各类数据中心建设导致的碎片化算力充分利用,也
成为一大挑战。此外,受限于当前国产GPU的能力以及GPU生态
智算时代的两种集群组网方式 割裂等问题,国内对多个智算中心间协同计算更加关注,需求
也更加迫切。目前业界正在积极探索分布式智算集群应用,并
当前,AI智算中心以单点大集群为主,即在同一个物理机 聚焦更长距离、更大带宽与更低时延需求。
房实现模型的训练。而模型规模的扩展、算卡数量提升带来的
巨大电力消耗,以及算力碎片化,使得分布式集群成为另一个 对于分布式集群,万卡、十万卡,乃至百万卡级的互联
重要的选择,即利用多个物理机房进行模型训练。此外,目前 带宽往往达到数十P比特级,甚至超百P比特级。因此,分布式
国产GPU的性能尚与国际先进水平存在一定的差距,因而未来分 集群间互联带宽需要足够大,以保证算效,并配合带宽收敛技
布式集群更为重要。上述两种不同的集群组网方式,对高速光 术减少光层的数量来降低成本。当前,业界通过引入波分复用
通信技术提出了差异化的承载需求。 (WDM)技术、提高单波长速率与扩展传输波段,实现带宽增大
的目标。例如,谷歌公司目前已完成跨多个数据中心的Gemini
对于单点集群,当前数据中心以Spine-leaf(叶脊)网络架 Ultra 大模型训练,中国电信在其现网中基于波分复用技术完
构为主,形成Full-mesh(全互联)拓扑。相较于传统三层网络 成了业内首例超百千米分布式无损智算网现网验证。同时,也
架构,叶脊网络对光模块的数量需求显著增加,尤其是400G、 可引入空分复用(SDM)技术,以在物理层面增加传输通道,提高
800G,乃至1.6T这类高速光模块。同时,随着速率的提升,其 传输带宽。
对光模块封装工艺的要求也不断提高,以降低单比特成本与功
耗。此外,全光交换技术在单点集群中可突破电交换在功耗和 基于此,本文从单点集群与分布式集群出发,介绍了两种
时延方面的瓶颈,在国外已经开展了商用实践。谷歌公司基于 集群方式的关键技术、发展现状与应用实例,并结合中国电信
光路交换(OCS)技术构建了Jupiter数据中心网络,英伟达将OCS 自身的需求,对智算时代的高速光通信技术进行展望。
54 网络电信 二零二四年十月