Rubin 是 HBM4 + NVLink 6 + Vera CPU + 新 Transformer Engine 的下一代 AI 工厂平台
Rubin 相比 Blackwell核心变化不是单卡再堆算力而是把 GPU、CPU、NVLink、网卡、DPU、以太网交换芯片一起协同设计成“机架级 AI 工厂”。NVIDIA 官方把 Vera Rubin 定义为面向agentic AI、推理模型、MoE、长上下文、多轮 reasoning的下一代平台。(nvidianews.nvidia.com)一句话概括Blackwell 是 FP4/NVFP4 NVLink 5 的机架级大模型推理平台Rubin 是 HBM4 NVLink 6 Vera CPU 新 Transformer Engine 的下一代 AI 工厂平台。1. Rubin GPU继续强化 NVFP4但更重视“持续推理效率”Rubin GPU 公开规格里单颗 Rubin GPU 达到50 PFLOPS NVFP4 inference并支持288GB HBM4显存带宽22TB/sVera Rubin Superchip 是 2 颗 Rubin GPU 1 颗 Vera CPU达到100 PFLOPS NVFP4 inferenceNVL72 机架级系统达到3,600 PFLOPS NVFP4 inference。这些规格 NVIDIA 标注为 preliminary后续可能变化。(nvidia.com)对比 BlackwellRubin 的低精度方向不是从 FP4 换成新格式而是继续把NVFP4 推理做成更高吞吐、更高带宽、更大系统规模Blackwell FP4/NVFP4 首次成为主路径 Rubin 继续强化 NVFP4并把它放进更大的 HBM4 NVLink 6 rack-scale 系统里2. HBM4显存带宽大幅提升Rubin GPU 的一个重大变化是HBM4。NVIDIA Vera Rubin NVL72 规格显示单 Rubin GPU 配288GB HBM4带宽22TB/sVera Rubin Superchip 配576GB HBM4带宽44TB/s整个 NVL72 机架是20.7TB HBM4总 HBM 带宽1,580TB/s。(nvidia.com)这对大模型推理非常关键因为 decode 阶段经常卡在权重读取 KV cache 读取 MoE expert 参数读取 长上下文状态读取 小 batch GEMV/GEMMRubin 的 HBM4 意味着不是只提高 Tensor Core 峰值而是明显加强“喂数据”的能力。3. 第三代 Transformer Engine硬件加速 adaptive compressionNVIDIA Vera Rubin 平台页面写到Rubin GPU 采用新的 Transformer Engine带有hardware-accelerated adaptive compression用于提升 NVFP4 性能并保持精度它单 GPU可达到50 PFLOPS NVFP4 inference同时兼容 Blackwell使之前为 Blackwell 优化的代码可以平滑迁移到 Vera Rubin。(nvidia.com)这点很关键Hopper Transformer Engine 重点是 FP8 Blackwell Transformer Engine 重点推进 FP4/NVFP4 Rubin 进一步加入硬件加速 adaptive compression继续提升 NVFP4 的有效性能和精度保持能力所以 Rubin 的重点不是简单“更低 bit”而是低精度 自适应压缩 硬件协同。4. NVLink 6单 GPU 3.6TB/sNVL72 总 260TB/sRubin 平台引入第六代 NVLink 和 NVLink Switch。NVIDIA 平台页写到Rubin GPU 每颗提供3.6TB/s NVLink 带宽NVL72 机架内 72 颗 Rubin GPU 组成一个统一性能域总连接带宽260TB/s同时结合 SHARP 可将 collective 操作的网络拥塞最高减少 50%。(nvidia.com)技术博客也强调NVLink 6 的目标是让 72 颗 Rubin GPU 在 NVL72 系统中像一个紧耦合加速器一样工作服务 MoE routing、collectives、同步密集训练和 reasoning inference。(developer.nvidia.com)对 MoE 来说这就是核心MoE 的瓶颈 expert dispatch all-to-all all-reduce 跨 GPU expert routing 动态 batch 长上下文状态传输 Rubin 的解决方向 NVLink 6 rack-scale all-to-all SHARP in-network compute5. Vera CPURubin 不只是 GPU还有专门配套 CPURubin 平台包含NVIDIA Vera CPU。NVIDIA 平台页写到Vera CPU 有88 个 NVIDIA 自研 Olympus cores支持 Arm 兼容内存带宽最高1.2TB/s LPDDR5X并通过NVLink-C2C实现高带宽、一致性 CPU-GPU 内存访问。(nvidia.com)Vera CPU 的意义不是替代 GPU 计算而是负责数据搬运 控制流 agentic reasoning 调度 存储/网络编排 CPU-GPU coherent memory 系统级 orchestration这说明 Rubin 的设计重点已经从“GPU 单卡性能”变成“整机架持续生产 token 的效率”。6. 从“单卡/单节点”变成“机架级 AI 超级计算机”Vera Rubin NVL72 的配置是72 颗 Rubin GPU 36 颗 Vera CPU NVLink 6 ConnectX-9 SuperNIC BlueField-4 DPU Spectrum-X / Spectrum-6 网络NVIDIA 官方称 NVL72 是一个 rack-scale platform用第六代 NVLink/NVLink Switch 做 scale-up用 Quantum-X800 InfiniBand 和 Spectrum-X Ethernet 做 scale-out。(nvidia.com)技术博客里说得更直接Vera Rubin 的旗舰 NVL72 被设计成让整个机架作为一个 rack-scale accelerator 运行不只是追求峰值性能而是追求可预测延迟、高利用率、异构执行阶段的持续效率、把电力转化为可用智能的效率。(developer.nvidia.com)这就是 Rubin 和前几代最大的思想变化Ampere 强 GPU Hopper Transformer GPU Blackwell 机架级 FP4 大模型推理系统 Rubin 把数据中心/机架当成计算单元的 AI 工厂架构7. 第三代 Confidential Computing机架级可信执行环境Rubin 平台还强化了安全性。NVIDIA 写到Vera Rubin NVL72 提供第三代 Confidential Computing把安全范围扩展到完整 rack scale在36 颗 Vera CPU、72 颗 Rubin GPU 和 NVLink fabric之间创建统一可信执行环境并通过 attestation 服务提供加密证明。(nvidia.com)这对企业大模型很重要因为以后推理系统里最贵的资产是模型权重 企业私有数据 长上下文记忆 用户会话 agent 工具调用轨迹 训练数据Rubin 试图把这些从 CPU、GPU 到 NVLink 域都纳入硬件级保护。8. 第二代 RAS Engine面向长期运行和零停机维护Rubin 还引入第二代 RAS Engine。NVIDIA 平台页写到Rubin GPU 具备专用第二代 RAS engine用于主动维护和实时健康检查Vera CPU 也增强了可维护性包括 SOCAMM LPDDR5X 和 CPU core in-system tests整机架还采用模块化、无缆 tray 设计相比 Blackwell 组装和维护速度提升 18 倍。(nvidia.com)这说明 Rubin 不是只为 benchmark而是为AI 工厂长期在线运行设计少宕机 可预测 可维护 可诊断 可大规模部署9. ConnectX-9、BlueField-4、Spectrum-6网络和 DPU 也一起升级NVIDIA 新闻稿明确说Rubin 平台是跨六种芯片的极限协同设计Vera CPU、Rubin GPU、NVLink 6 Switch、ConnectX-9 SuperNIC、BlueField-4 DPU、Spectrum-6 Ethernet Switch目标是降低训练时间和推理 token 成本。(nvidianews.nvidia.com)这说明 Rubin 的“架构”不只是 GPU microarchitecture而是一整套数据中心系统GPU算 Transformer / MoE CPU调度、数据和控制流 NVLink 6机架内 scale-up ConnectX-9节点/机架间高速网络 BlueField-4DPU、存储、安全、隔离 Spectrum-6Ethernet scale-out这和你关注的推理引擎很相关未来不是单个 kernel 赢而是kernel 通信 存储 调度 安全 长上下文状态管理一起赢。10. 相比 Blackwell 的核心变化能力Blackwell / B200-GB200Rubin / Vera Rubin低精度重点FP4/NVFP4更强 NVFP4 adaptive compression显存HBM3eB200 最高 180GB 级HBM4单 GPU 288GB22TB/sTransformer Engine第二代新 Transformer Engine / adaptive compressionNVLink第五代第六代单 GPU 3.6TB/sNVL72 260TB/sCPUGrace CPU 配套Vera CPU88 Olympus cores1.2TB/s LPDDR5X系统形态GB200 NVL72Vera Rubin NVL72 / HGX Rubin NVL8机密计算强化第三代rack-scale trusted execution可靠性数据中心级第二代 RAS engine持续运行优化主要目标FP4 大模型推理agentic AI、MoE、长上下文、AI factory11. 对 DeepSeek-V4 / MoE / 长上下文的意义DeepSeek-V4 这种模型有几个特征MoE FP4 expert FP8 / FP4 attention path 长上下文 KV cache 压缩 expert dispatch all-to-all 大规模推理服务Rubin 对它的意义比 Blackwell 更进一步1. HBM4 提高权重、KV cache、expert 参数读取能力 2. NVLink 6 改善 MoE expert dispatch 和 all-to-all 3. 新 Transformer Engine 改善 NVFP4 推理效率 4. Vera CPU 负责 agentic reasoning 的调度、数据流和系统编排 5. rack-scale confidential computing 保护模型和长上下文数据 6. RAS Engine 让大规模推理系统更适合长期在线运行所以 Rubin 不是只提升某一个算子而是在解决大模型推理从“单请求算得快” 变成“海量 agent 长上下文任务持续、稳定、低成本地产生 token”12. 最简洁结论Rubin 的新变化可以压缩成六个关键词HBM4 NVLink 6 Vera CPU 新 Transformer Engine Rack-scale Confidential Computing AI Factory 系统化设计更技术一点单 Rubin GPU50 PFLOPS NVFP4 inference 单 GPU288GB HBM422TB/s 带宽 Vera Rubin Superchip2 Rubin GPU 1 Vera CPU NVL7272 Rubin GPU 36 Vera CPU NVL723,600 PFLOPS NVFP4 inference NVLink 6单 GPU 3.6TB/s整机架 260TB/s Vera CPU88 Olympus Arm-compatible cores1.2TB/s LPDDR5X 第三代 Confidential Computing 第二代 RAS Engine ConnectX-9 / BlueField-4 / Spectrum-6 协同一句话Blackwell 把大模型推理推进到 FP4/NVFP4 时代Rubin 则把 FP4 推理、HBM4、NVLink 6、Vera CPU 和机架级安全/可靠性组合起来目标是让整个数据中心机架成为持续生产智能的 AI 工厂。