NVIDIA推出Blackwell架构DGX SuperPOD，适用于万亿参数级的生成式AI超级计算

电观快讯 2024年3月20日

基于先进的NVIDIA网络、NVIDIA全栈AI软件和存储技术，可将集群中Grace Blackwell超级芯片的数量扩展至数万个，通过NVIDIA NVLink可将多达576块Blackwell GPU连成一个整体，由NVIDIA系统专家加速即时AI基础设施的部署。

美国加利福尼亚州圣何塞——GTC——太平洋时间2024年3月18日——NVIDIA于今日发布新一代AI超级计算机——搭载NVIDIA GB200 Grace Blackwell超级芯片的NVIDIA DGX SuperPOD™。这台AI超级计算机可以用于处理万亿参数模型，能够保证超大规模生成式AI训练和推理工作负载的持续运行。

全新DGX SuperPOD采用新型高效液冷机架级扩展架构，基于NVIDIA DGX™GB200系统构建而成，在FP4精度下可提供11.5 exaflops的AI超级计算性能和240 TB的快速显存，且可通过增加机架来扩展性能。

每个DGX GB200系统搭载36个NVIDIA GB200超级芯片，共包含36个NVIDIA Grace CPU和72个NVIDIA Blackwell GPU。这些超级芯片通过第五代NVIDIA NVLink®连接成一台超级计算机。与NVIDIA H100 Tensor Core GPU相比，GB200超级芯片在大语言模型推理工作负载方面的性能提升了高达30倍。

NVIDIA创始人兼首席执行官黄仁勋表示：“NVIDIA DGX AI超级计算机是推进AI产业变革的工厂。新一代DGX SuperPOD集NVIDIA加速计算、网络和软件方面的最新进展于一体，能够帮助每一个企业、行业和国家完善并生成自己的AI。”

Grace Blackwell架构的DGX SuperPOD由8个或以上的DGX GB200系统构建而成，这些系统通过NVIDIA Quantum InfiniBand网络连接，可扩展到数万个GB200超级芯片。用户可通过NVLink连接8个DGX GB200系统中的576块Blackwell GPU，从而获得海量共享显存空间，来赋能下一代AI模型。

面向生成式AI时代的全新机架级扩展的DGX SuperPOD架构

采用DGX GB200系统构建而成的全新DGX SuperPOD采用了统一的计算网络。除第五代NVIDIA NVLink网络外，还包括NVIDIA BlueField®-3 DPU，并将支持同为今日发布的NVIDIA Quantum-X800 InfiniBand网络。这个架构可为计算平台中的每块GPU提供高达每秒1800 GB的带宽。

另外，第四代NVIDIA可扩展分层聚合和规约协议（SHARP）™技术可提供14.4 teraflops的网络计算能力，与上一代产品相比，新一代DGX SuperPOD架构的网络计算能力提高了4倍。

统包式架构搭配先进的软件，实现前所未有的正常运行时间

全新DGX SuperPOD是一台完整的数据中心级AI超级计算机，在与NVIDIA认证合作伙伴提供的高性能存储集成后，能够满足生成式AI工作负载的需求。每台超级计算机都在出厂前完成了搭建、布线和测试，从而大大加快了在用户数据中心的部署速度。

Grace Blackwell架构的DGX SuperPOD具有智能预测管理功能，能够持续监控软硬件中的数千个数据点，通过预测并拦截导致停机和低效的根源以节省时间、能耗和计算成本。

即使没有系统管理员在场，该软件也能识别需要重点关注的领域并制定维护计划，灵活调整计算资源，通过自动保存和恢复作业来防止停机。

如果软件检测到需要更换组件，该集群将激活备用容量以确保工作能够及时完成。为任何必要的硬件更换做好安排，以免出现计划之外的停机。

NVIDIA DGX B200系统推动各行各业AI超级计算发展

NVIDIA还发布了一款统一用于AI模型训练、微调和推理的通用AI超级计算平台NVIDIA DGX B200系统。

采用风冷传统机架式设计的DGX已被全球各行各业数千家企业广泛采用，DGX B200是DGX系列的第六代产品。采用Blackwell架构的全新DGX B200系统包含8个NVIDIA B200 Tensor Core GPU和2个第五代英特尔®至强®处理器。用户还可以使用DGX B200系统构建DGX SuperPOD，打造能够帮助大型开发团队运行多种不同作业的AI卓越中心。

DGX B200系统凭借全新Blackwell架构中的FP4精度特性，可提供高达144 petaflops的AI性能、1.4TB海量的GPU显存和64TB/s的显存带宽，从而使得该系统的万亿参数模型实时推理速度比上一代产品提升了15倍。

DGX B200系统包含带有8个NVIDIA ConnectX™-7网卡和2个BlueField-3 DPU的高性能网络，每个连接的带宽高达400 Gb/s，可通过NVIDIA Quantum-2 InfiniBand和NVIDIA Spectrum™-X以太网网络平台支持更高的AI性能。

软件和专家为扩大生产级AI的规模提供支持

所有NVIDIA DGX平台均包含用于企业级开发和部署的NVIDIA AI Enterprise软件。DGX用户可以通过使用该软件平台中的预训练的NVIDIA基础模型、框架、工具套件和全新NVIDIA NIM微服务来加速他们的工作。

NVIDIA DGX专家与部分获得NVIDIA DGX平台支持认证的合作伙伴将在每个部署环节为用户提供帮助，以便其迅速实现AI投产。在系统投入运行后，DGX专家还将继续协助用户优化其AI管线和基础设施。

供应情况

NVIDIA全球合作伙伴预计将在今年晚些时候提供基于DGX GB200和DGX B200系统构建而成的NVIDIA DGX SuperPOD。

本文由电动汽车观察家作者：电观发表，其版权均为电动汽车观察家所有，文章内容系作者个人观点，不代表电动汽车观察家对观点赞同或支持。如需转载，请注明文章来源。

上一篇：比亚迪与NVIDIA拓展深度合作，将AI融入汽车、机器人、工厂和零售业下一篇：英伟达宣布联合昊铂量产L4，搭载2000TOPS算力芯片

NVIDIA推出Blackwell架构DGX SuperPOD，适用于万亿参数级的生成式AI超级计算

相关文章

法院判了！此人造谣诋毁比亚迪，公开道歉并赔偿！

以用为先！哪吒汽车全阵容新品亮相成都车展

陈士华：10月份汽车行业运行情况发布