数据中心正在被重新架构,以高效地交付 AI 工作负载。这是一个极其复杂的任务,NVIDIA 现在正在基于 NVIDIA 机架规模架构交付 AI 工厂。
为了为 AI 工厂提供最佳性能,许多加速器需要在机架规模上以最大带宽和最小延迟协同工作,以最节能的方式支持最多的用户。
设计一个满足这些需求的机架面临着许多技术挑战。
需要高密度的加速器、网络接口卡(NICs)、交换机以及扩展和扩展架构,所有这些都需要紧密互联。密集配置对于提供当今 AI 所需的高计算能力和背板带宽至关重要。传统的空气冷却方法通常不足以应对如此密集的部署,这导致了对高密度、液冷机架的必要性,例如使用 NVIDIA NVLink 高速扩展互联技术的 NVIDIA GB300 NVL72 或 NVIDIA GB200 NVL72。
图 1 展示了 NVLink 和更大的扩展域如何提供最佳性能。NVIDIA 机架规模解决方案提供了一条经过验证的、可扩展的路径,通向最快和最高效的基础设施。图 1. 随着 NVIDIA NVLink 域的增大,性能提升NVIDIA AI 工厂生态系统NVIDIA 已经建立了一个经过验证的 AI 工厂生态系统。这包括尖端的 GPU 技术和 NVIDIA NVLink 扩展计算架构。NVIDIA NVLink 交换芯片在 72-GPU 的 NVLink 域中实现了 130TB/s 的 GPU 带宽。NVIDIA Quantum-X800 InfiniBand、NVIDIA Spectrum-X 以太网和 NVIDIA Bluefield-3 DPU 支持扩展到数十万 GPU。此外,高性能的 NVIDIA Grace CPU 提供了高达 2 倍于领先传统 CPU 的能效和低功耗下的高带宽。这种机架规模架构已经在主要的云服务提供商中部署,并得到了广泛的 OEM 和 ODM 合作伙伴网络的支持,构成了现代 AI 工厂的基础。NVIDIA NVLink Fusion 用于半定制 AI 基础设施新推出的 NVIDIA NVLink Fusion 是一种硅技术,允许超大规模数据中心(hyperscalers)构建基于 NVIDIA NVLink 生态系统的半定制 AI 基础设施。
NVLink Fusion 允许用户通过半定制 ASIC 或 CPU 提供顶级性能扩展。超大规模数据中心可以利用 NVLink、NVIDIA NVLink-C2C、NVIDIA Grace CPU、NVIDIA GPU、NVIDIA 共封装光学网络、机架规模架构和 NVIDIA Mission Control 软件的创新。由于超大规模数据中心已经在部署完整的 NVIDIA 机架解决方案,这使得他们能够在其 AI 工厂中提供异构硅片解决方案,同时标准化为单一可扩展的硬件基础设施。凭借丰富的 NVIDIA 基础设施合作伙伴生态系统,NVLink Fusion 的采用者能够轻松地大规模部署和管理。NVIDIA NVLink 扩展互联NVLink Fusion 的核心是 NVLink,这是一种突破性的互联技术。为了充分发挥大规模 AI 模型的潜力,机架内每个加速器之间的无缝通信至关重要。在第五代中,NVLink 为每个 GPU 提供了 1.8TB/s 的双向带宽,是 PCIe Gen5 带宽的 14 倍,实现了复杂大型模型中的无缝高速通信。它通过执行网络内计算来提高吞吐量并减少延迟。每增加 2 倍的 NVLink 带宽,可以带来 1.3-1.4 倍的机架级 AI 性能提升。半定制 AI 基础设施的行业规模部署NVLink Fusion 使超大规模数据中心能够将其半定制 ASIC 无缝集成到高度优化且广泛部署的数据中心架构中。
NVLink Fusion 包括一个 NVLink 芯片,用于使用相同的 NVIDIA 机架规模架构扩展 NVIDIA 和半定制 ASIC 混合基础设施。它与 NVIDIA CPU、NVIDIA NVLink 交换机、NVIDIA ConnectX 以太网 SuperNICs、NVIDIA BlueField 数据处理单元(DPU)以及 NVIDIA Quantum 和 NVIDIA Spectrum-X 交换机配对,用于扩展解决方案。领先的超大规模数据中心已经在部署 NVIDIA NVLink 全机架解决方案,并可以通过将异构硅片数据中心标准化为带有 NVLink Fusion 的相同机架架构,加快上市时间。NVLink Fusion 技术还为 AI 创新者提供了一种替代集成路径——通过 NVIDIA NVLink-C2C 将他们的半定制 CPU 连接到 NVIDIA GPU。合作伙伴可以将他们的先进 CPU 技术与 NVIDIA GPU 协同工作,并提供 NVIDIA 全栈 AI 基础设施解决方案。NVLink-C2C 最初在 NVIDIA Grace Hopper 和 NVIDIA Grace CPU Superchip 中引入,提供 900GB/s 的相干互联带宽。图 2 显示了不同的 NVLink Fusion 选项。图 2. NVLink Fusion 机架规模部署示例为 AI 工厂定制的软件通过 NVLink Fusion 连接的 AI 工厂可以由 NVIDIA Mission Control 提供支持,这是一个统一的操作和编排软件平台,自动化管理 AI 数据中心和工作负载的复杂性。Mission Control 增强了 AI 工厂的运营——从配置部署到验证基础设施再到编排关键任务工作负载——帮助企业更快地启动前沿模型。NVLink Fusion 合作伙伴生态系统NVIDIA 生态系统涵盖了定制硅片设计者、CPU、IP 和 OEM/ODM 合作伙伴,提供了一个完整的解决方案,用于大规模部署 NVIDIA 的定制硅片。
使用 NVLink Fusion,团队可以与 NVIDIA 合作伙伴生态系统合作,将 NVIDIA 机架规模解决方案的部署整合到数据中心基础设施中。高性能的 AI 工厂可以快速扩展,以满足模型训练和代理 AI 推理的严苛工作负载需求。加速 AI 的网络平台NVIDIA Quantum-X800 InfiniBand 平台、NVIDIA Spectrum-X 以太网网络平台、NVIDIA Bluefield-3 DPU 和 NVIDIA Connect-X SuperNICs 可以在大规模 AI 数据中心中提供可扩展的性能、效率和安全性。系统中的每个 GPU 可以获得 800Gb/s 的总数据吞吐量,NVLink Fusion 无缝集成了 Quantum-X800 和 Spectrum-X 平台,使 AI 工厂和云数据中心能够处理万亿参数模型,而不会出现瓶颈。NVIDIA 共封装光学(CPO)交换机,作为 NVIDIA Quantum-X 和 Spectrum-X 平台的一部分,用集成的硅光子技术取代可插拔收发器,提供比传统网络更好的功耗效率、网络弹性、信号完整性和部署速度。基于 NVIDIA CPO 的网络简化了管理和设计,为计算基础设施提供了更多动力。这些优势对于实现进入百万 GPU AI 工厂所需的规模至关重要。BlueField-3 DPU 在数据中心内扩展,提供对数据的加速 GPU 访问、安全的云多租户以及高效的数据中心运营。
NVIDIA GB300 NVL72 架构首次引入了 GPU 和 ConnectX-8 SuperNIC 之间的 PCIe Gen6 连接,消除了对独立 PCIe 交换接口的需求。新的 I/O 模块将在同一设备上托管两个 ConnectX-8 芯片,为系统中的每个 GPU 提供完整的 800Gb/s 网络连接。结论AI 革命需要的基础设施不仅强大,而且灵活、可扩展和高效。简单地增加更多的独立服务器或组件已不再是一个可行的策略。未来在于深度集成的机架规模解决方案,使大规模计算资源作为一个统一的整体运行。NVIDIA NVLink 技术一直处于推动这种扩展架构的前沿。现在,通过 NVLink Fusion,NVIDIA 将这种经过验证的世界级性能扩展能力扩展到半定制硅片领域。
观看 NVIDIA 创始人兼首席执行官黄仁勋在 COMPUTEX 的主题演讲,以及 2025 年 GTC 台北的会议。