Rubin 是 HBM4 + NVLink 6 + Vera CPU + 新 Transformer Engine 的下一代 AI 工厂平台

张

张建站

2026/6/5 9:04:07

10分钟阅读

Rubin 是 HBM4 + NVLink 6 + Vera CPU + 新 Transformer Engine 的下一代 AI 工厂平台

Rubin 相比 Blackwell核心变化不是单卡再堆算力而是把 GPU、CPU、NVLink、网卡、DPU、以太网交换芯片一起协同设计成“机架级 AI 工厂”。NVIDIA 官方把 Vera Rubin 定义为面向agentic AI、推理模型、MoE、长上下文、多轮 reasoning的下一代平台。(nvidianews.nvidia.com)一句话概括Blackwell 是 FP4/NVFP4 NVLink 5 的机架级大模型推理平台Rubin 是 HBM4 NVLink 6 Vera CPU 新 Transformer Engine 的下一代 AI 工厂平台。1. Rubin GPU继续强化 NVFP4但更重视“持续推理效率”Rubin GPU 公开规格里单颗 Rubin GPU 达到50 PFLOPS NVFP4 inference并支持288GB HBM4显存带宽22TB/sVera Rubin Superchip 是 2 颗 Rubin GPU 1 颗 Vera CPU达到100 PFLOPS NVFP4 inferenceNVL72 机架级系统达到3,600 PFLOPS NVFP4 inference。这些规格 NVIDIA 标注为 preliminary后续可能变化。(nvidia.com)对比 BlackwellRubin 的低精度方向不是从 FP4 换成新格式而是继续把NVFP4 推理做成更高吞吐、更高带宽、更大系统规模Blackwell FP4/NVFP4 首次成为主路径 Rubin 继续强化 NVFP4并把它放进更大的 HBM4 NVLink 6 rack-scale 系统里2. HBM4显存带宽大幅提升Rubin GPU 的一个重大变化是HBM4。NVIDIA Vera Rubin NVL72 规格显示单 Rubin GPU 配288GB HBM4带宽22TB/sVera Rubin Superchip 配576GB HBM4带宽44TB/s整个 NVL72 机架是20.7TB HBM4总 HBM 带宽1,580TB/s。(nvidia.com)这对大模型推理非常关键因为 decode 阶段经常卡在权重读取 KV cache 读取 MoE expert 参数读取长上下文状态读取小 batch GEMV/GEMMRubin 的 HBM4 意味着不是只提高 Tensor Core 峰值而是明显加强“喂数据”的能力。3. 第三代 Transformer Engine硬件加速 adaptive compressionNVIDIA Vera Rubin 平台页面写到Rubin GPU 采用新的 Transformer Engine带有hardware-accelerated adaptive compression用于提升 NVFP4 性能并保持精度它单 GPU可达到50 PFLOPS NVFP4 inference同时兼容 Blackwell使之前为 Blackwell 优化的代码可以平滑迁移到 Vera Rubin。(nvidia.com)这点很关键Hopper Transformer Engine 重点是 FP8 Blackwell Transformer Engine 重点推进 FP4/NVFP4 Rubin 进一步加入硬件加速 adaptive compression继续提升 NVFP4 的有效性能和精度保持能力所以 Rubin 的重点不是简单“更低 bit”而是低精度自适应压缩硬件协同。4. NVLink 6单 GPU 3.6TB/sNVL72 总 260TB/sRubin 平台引入第六代 NVLink 和 NVLink Switch。NVIDIA 平台页写到Rubin GPU 每颗提供3.6TB/s NVLink 带宽NVL72 机架内 72 颗 Rubin GPU 组成一个统一性能域总连接带宽260TB/s同时结合 SHARP 可将 collective 操作的网络拥塞最高减少 50%。(nvidia.com)技术博客也强调NVLink 6 的目标是让 72 颗 Rubin GPU 在 NVL72 系统中像一个紧耦合加速器一样工作服务 MoE routing、collectives、同步密集训练和 reasoning inference。(developer.nvidia.com)对 MoE 来说这就是核心MoE 的瓶颈 expert dispatch all-to-all all-reduce 跨 GPU expert routing 动态 batch 长上下文状态传输 Rubin 的解决方向 NVLink 6 rack-scale all-to-all SHARP in-network compute5. Vera CPURubin 不只是 GPU还有专门配套 CPURubin 平台包含NVIDIA Vera CPU。NVIDIA 平台页写到Vera CPU 有88 个 NVIDIA 自研 Olympus cores支持 Arm 兼容内存带宽最高1.2TB/s LPDDR5X并通过NVLink-C2C实现高带宽、一致性 CPU-GPU 内存访问。(nvidia.com)Vera CPU 的意义不是替代 GPU 计算而是负责数据搬运控制流 agentic reasoning 调度存储/网络编排 CPU-GPU coherent memory 系统级 orchestration这说明 Rubin 的设计重点已经从“GPU 单卡性能”变成“整机架持续生产 token 的效率”。6. 从“单卡/单节点”变成“机架级 AI 超级计算机”Vera Rubin NVL72 的配置是72 颗 Rubin GPU 36 颗 Vera CPU NVLink 6 ConnectX-9 SuperNIC BlueField-4 DPU Spectrum-X / Spectrum-6 网络NVIDIA 官方称 NVL72 是一个 rack-scale platform用第六代 NVLink/NVLink Switch 做 scale-up用 Quantum-X800 InfiniBand 和 Spectrum-X Ethernet 做 scale-out。(nvidia.com)技术博客里说得更直接Vera Rubin 的旗舰 NVL72 被设计成让整个机架作为一个 rack-scale accelerator 运行不只是追求峰值性能而是追求可预测延迟、高利用率、异构执行阶段的持续效率、把电力转化为可用智能的效率。(developer.nvidia.com)这就是 Rubin 和前几代最大的思想变化Ampere 强 GPU Hopper Transformer GPU Blackwell 机架级 FP4 大模型推理系统 Rubin 把数据中心/机架当成计算单元的 AI 工厂架构7. 第三代 Confidential Computing机架级可信执行环境Rubin 平台还强化了安全性。NVIDIA 写到Vera Rubin NVL72 提供第三代 Confidential Computing把安全范围扩展到完整 rack scale在36 颗 Vera CPU、72 颗 Rubin GPU 和 NVLink fabric之间创建统一可信执行环境并通过 attestation 服务提供加密证明。(nvidia.com)这对企业大模型很重要因为以后推理系统里最贵的资产是模型权重企业私有数据长上下文记忆用户会话 agent 工具调用轨迹训练数据Rubin 试图把这些从 CPU、GPU 到 NVLink 域都纳入硬件级保护。8. 第二代 RAS Engine面向长期运行和零停机维护Rubin 还引入第二代 RAS Engine。NVIDIA 平台页写到Rubin GPU 具备专用第二代 RAS engine用于主动维护和实时健康检查Vera CPU 也增强了可维护性包括 SOCAMM LPDDR5X 和 CPU core in-system tests整机架还采用模块化、无缆 tray 设计相比 Blackwell 组装和维护速度提升 18 倍。(nvidia.com)这说明 Rubin 不是只为 benchmark而是为AI 工厂长期在线运行设计少宕机可预测可维护可诊断可大规模部署9. ConnectX-9、BlueField-4、Spectrum-6网络和 DPU 也一起升级NVIDIA 新闻稿明确说Rubin 平台是跨六种芯片的极限协同设计Vera CPU、Rubin GPU、NVLink 6 Switch、ConnectX-9 SuperNIC、BlueField-4 DPU、Spectrum-6 Ethernet Switch目标是降低训练时间和推理 token 成本。(nvidianews.nvidia.com)这说明 Rubin 的“架构”不只是 GPU microarchitecture而是一整套数据中心系统GPU算 Transformer / MoE CPU调度、数据和控制流 NVLink 6机架内 scale-up ConnectX-9节点/机架间高速网络 BlueField-4DPU、存储、安全、隔离 Spectrum-6Ethernet scale-out这和你关注的推理引擎很相关未来不是单个 kernel 赢而是kernel 通信存储调度安全长上下文状态管理一起赢。10. 相比 Blackwell 的核心变化能力Blackwell / B200-GB200Rubin / Vera Rubin低精度重点FP4/NVFP4更强 NVFP4 adaptive compression显存HBM3eB200 最高 180GB 级HBM4单 GPU 288GB22TB/sTransformer Engine第二代新 Transformer Engine / adaptive compressionNVLink第五代第六代单 GPU 3.6TB/sNVL72 260TB/sCPUGrace CPU 配套Vera CPU88 Olympus cores1.2TB/s LPDDR5X系统形态GB200 NVL72Vera Rubin NVL72 / HGX Rubin NVL8机密计算强化第三代rack-scale trusted execution可靠性数据中心级第二代 RAS engine持续运行优化主要目标FP4 大模型推理agentic AI、MoE、长上下文、AI factory11. 对 DeepSeek-V4 / MoE / 长上下文的意义DeepSeek-V4 这种模型有几个特征MoE FP4 expert FP8 / FP4 attention path 长上下文 KV cache 压缩 expert dispatch all-to-all 大规模推理服务Rubin 对它的意义比 Blackwell 更进一步1. HBM4 提高权重、KV cache、expert 参数读取能力 2. NVLink 6 改善 MoE expert dispatch 和 all-to-all 3. 新 Transformer Engine 改善 NVFP4 推理效率 4. Vera CPU 负责 agentic reasoning 的调度、数据流和系统编排 5. rack-scale confidential computing 保护模型和长上下文数据 6. RAS Engine 让大规模推理系统更适合长期在线运行所以 Rubin 不是只提升某一个算子而是在解决大模型推理从“单请求算得快” 变成“海量 agent 长上下文任务持续、稳定、低成本地产生 token”12. 最简洁结论Rubin 的新变化可以压缩成六个关键词HBM4 NVLink 6 Vera CPU 新 Transformer Engine Rack-scale Confidential Computing AI Factory 系统化设计更技术一点单 Rubin GPU50 PFLOPS NVFP4 inference 单 GPU288GB HBM422TB/s 带宽 Vera Rubin Superchip2 Rubin GPU 1 Vera CPU NVL7272 Rubin GPU 36 Vera CPU NVL723,600 PFLOPS NVFP4 inference NVLink 6单 GPU 3.6TB/s整机架 260TB/s Vera CPU88 Olympus Arm-compatible cores1.2TB/s LPDDR5X 第三代 Confidential Computing 第二代 RAS Engine ConnectX-9 / BlueField-4 / Spectrum-6 协同一句话Blackwell 把大模型推理推进到 FP4/NVFP4 时代Rubin 则把 FP4 推理、HBM4、NVLink 6、Vera CPU 和机架级安全/可靠性组合起来目标是让整个数据中心机架成为持续生产智能的 AI 工厂。

LevelUI：专业级LevelDB数据库可视化管理系统解决方案

LevelUI：专业级LevelDB数据库可视化管理系统解决方案【免费下载链接】levelui A GUI for LevelDB management based on atom-shell. 项目地址: https://gitcode.com/gh_mirrors/le/levelui LevelUI是一款基于Electron框架开发的高性能LevelDB键值数据库可视…...

2026/6/5 9:02:59 阅读更多 →

嵌入式C程序：从GPS串口实时提取经纬度、海拔和时间等定位数据

本文还有配套的精品资源，点击获取简介：这个轻量级C语言程序（gps.c）直接对接GPS模块的串口输出，按NMEA-0183协议解析GGA和RMC语句，稳定提取纬度、经度、海拔高度、UTC时间、定位状态、卫星数量、水平精度…...

2026/6/5 9:02:56 阅读更多 →

别让运放自激振荡！手把手教你用波特图分析相位裕度（附LTspice仿真文件）

别让运放自激振荡！手把手教你用波特图分析相位裕度（附LTspice仿真文件）在电子设计领域，运算放大器就像乐高积木中的基础模块——看似简单，组合起来却可能产生意想不到的复杂行为。许多工程师都经历过这样的场景&#x…...

2026/6/5 8:59:59 阅读更多 →

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

AnolisOS 8.8安装源配置实战指南：从诊断到解决方案的全流程解析当你在安装AnolisOS 8.8时遇到"设置基础软件仓库时出错"的提示，这通常意味着系统无法访问或识别安装源。这个问题看似简单，但背后可能涉及网络配置、镜像选择、启动参…...

2026/6/3 16:54:28 阅读更多 →

Lindy路线图前瞻：3个已被验证的信号，预示Q3将启动下一代AI原生平台重构

更多请点击： https://intelliparadigm.com 第一章：Lindy路线图前瞻：3个已被验证的信号，预示Q3将启动下一代AI原生平台重构信号一：核心基础设施层API调用量连续8周突破临界阈值 Lindy平台的 /v2/execute与 /v3/plan端…...

2026/6/3 1:19:41 阅读更多 →

【AI工具智能排行榜TOP10】：2024年实测数据驱动的生产力跃迁指南（仅限本周开放下载）

更多请点击： https://kaifayun.com 第一章：AI工具智能排行榜TOP10的底层逻辑与评估范式 AI工具排行榜并非主观评分的产物，而是由多维可量化指标驱动的系统性工程。其核心在于构建一个兼顾能力广度、推理深度、工程鲁棒性与生态协同性的评估范…...

2026/6/4 8:46:30 阅读更多 →

3步解决博德之门3模组管理难题：BG3ModManager完整使用指南

3步解决博德之门3模组管理难题：BG3ModManager完整使用指南【免费下载链接】BG3ModManager A mod manager for Baldurs Gate 3. This is the only official source! 项目地址: https://gitcode.com/gh_mirrors/bg/BG3ModManager BG3ModManager是专为《博德之…...

2026/6/4 10:59:42 阅读更多 →