人工智能 (AI) 部署和应用的近期增长凸显了对大带宽、高效数据传输解决方案的需求。为 AI 训练和推理而部署的数千个 GPU 的性能瓶颈日益受到数据中心网络中使用的传统互连解决方案的限制。这些方法增加了功耗和成本,凸显了对创新解决方案的迫切需求。
基于光学 I/O 和共封装光学 (CPO) 的解决方案是最有前景的进步之一。它们通过优化数据吞吐量和系统性能,帮助向大型互连 AI 集群转变。这些光学 I/O 和共封装解决方案需要创新且高度先进的激光封装策略,这有助于提高这些系统的性能、可扩展性和可靠性,而这些系统是持续部署盈利性 AI 基础设施的基础。
硅光子学中的激光封装
硅光子学通过使用光而不是电信号,彻底改变了逻辑和内存芯片内部及之间的数据传输。这对于针对生成式人工智能的部署变得越来越重要。传统的基于铜的解决方案越来越多地限制了这些系统之间的数据流,限制了计算设备和内存容量可以集群的规模和数据速率。
为了解决这些缺点,可插拔光学器件一直是将电信号转换为光信号(反之亦然)的最常用方法。CPO 通过将模块组件与计算或交换芯片一起集成到单个封装中,成功地将 I/O 模块从面板上移开。共同封装将可插拔收发器的功能放在专用集成电路 (ASIC) 旁边,从而减少了高带宽铜链路上的信号损耗。
光学 I/O 为分布式计算系统(例如需要高带宽密度、低能耗和低互连延迟的 AI 集群)提供了一种集成度更高、更节能的解决方案。这是通过让与计算 ASIC 封装在一起的单个电光芯片执行由分立模块构建的收发器的传输、接收和数据转换功能来实现的。
CPO 和光学 I/O 解决方案可以使用集成或远程光源为其同封装模块或芯片提供光学输入。让我们研究一下这两个选项,并探索它们的优点和权衡。
集成光源
集成光源是指将光源与 CPO 模块或光学 I/O 芯片组共置,靠近 GPU 或其他计算 ASIC 的方法。这是通过单独制造激光器并与光子集成电路 (PIC) 共封装或与 PIC 单片制造来实现的。另一方面,远程光源(也称为分解或外部激光器)是独立封装的,并且与 CPO 模块、光学 I/O 芯片组和 ASIC 物理分离。
现代 AI 系统需要功耗极高的 GPU 或 ASIC 芯片,这会导致其周围环境温度极高。集成光源由于物理距离较近,因此温度极高,而带有远程光源的系统则可以通过设计获得更好的热环境。
激光器,尤其是高输出功率激光器,是光学连接解决方案中最容易在高温下发生故障的组件,可能会导致整个链路中断。远程光源的优势在于热环境要求较低,可延长其使用寿命,并大幅降低故障率和系统停机时间。
此外,远程激光器可以轻松移除、维修或更换,而不会干扰其他系统组件,例如同封装的 GPU 和 CPO 或光学 I/O 芯片。集成光源可能无法维修或需要对昂贵的 ASIC 封装进行重大修改,从而增加成本和系统停机时间。
业界已制定了外部激光器小型可插拔 (ELSFP) 规范,认识到了外部激光器的重要性。这种通用外形充分利用了可插拔模块的可维护性、可替换性和易于部署的优势以及 CPO 解决方案的成本、延迟和信道损耗优势,同时将供应商和客户的生态系统统一在一个外形上。
需要考虑的因素
从成本和可靠性的角度来看,光源通常是光学连接解决方案中最敏感的组件。设计师和架构师应优先考虑多样化的供应商和标准化的波长网格,例如使用了二十多年的 O 波段 LR4 网格。这种方法可确保较低的设计和供应风险,并建立成功部署光学 I/O 所必需的有吸引力的大批量成本结构。
连续波波分复用多源协议 (CW-WDM MSA) 汇集了广泛的行业利益相关者,包括激光器供应商、收发器制造商、CPO 和光学 I/O 连接供应商等,以促进解决方案之间的互操作性并减少对任何单一供应商或技术的依赖。此类标准化工作对于为 AI、HPC 和其他高价值、大容量应用提供解决方案至关重要。
远程光源的作用
人工智能技术的进步和大型语言模型 (LLM) 的指数级增长要求计算和内存元素之间采用新的数据传输解决方案,以跟上模型大小和令牌数量的指数级增长。远程光源是解决这些瓶颈的光学 I/O 解决方案的关键支持技术。
传统网络系统严重依赖交换机来实现大型系统内的连接,这会带来延迟并限制高带宽域的大小。光纤 I/O 解决方案中常见的多波长、多端口功能使得在多个设备之间提供直接、低延迟、高带宽连接成为可能。这种方法通过消除交换机简化了系统架构,并提高了网络间数据交换的速度和可扩展性,从而增加了高带宽域的大小。
AI 架构面临的最大挑战之一是“内存墙”,即快速增长的内存与计算比率,导致运行效率受到与处理器芯片一起封装的高带宽内存 (HBM) 数量的限制。远程光源作为光学 I/O 解决方案的一部分,通过超低延迟、高带宽链路将分散的内存集群连接到 GPU,从而缓解了这一瓶颈。
激光封装技术现在是克服阻碍 AI 发挥潜力的瓶颈的关键基石。远程光源对于实现下一代 AI 所需的效率、可扩展性和性能至关重要。它们将成为基础设施的主力,以应对 LLM 和新的高级计算范式日益增长的需求。随着 AI 不断突破技术可行性的界限,采用光学 I/O 解决方案将有助于实现未来的 AI 应用。
来源: |