X-World:可扩展端到端驾驶中可控自我为中心多摄像头世界模型
26年3月来自小鹏汽车的论文“X-World: Controllable Ego-Centric Multi-Camera World Models for Scalable End-to-End Driving”。在端到端自动驾驶时代可扩展且可靠的评估变得日益重要。在这一时代视觉-语言-动作VLA策略直接将原始传感器数据流映射到驾驶动作。然而当前的评估流程仍然严重依赖于实际道路测试这不仅成本高昂而且场景覆盖范围有限难以复现。这些挑战促使开发一种能够根据预设动作生成逼真未来观测结果的真实世界模拟器同时保持长期可控性和稳定性。提出 X-World一个基于动作条件的多摄像头生成式世界模型它直接在视频空间中模拟未来观测结果。给定同步的多视角摄像头历史记录和未来动作序列X-World 可以生成跟随指令动作的未来多摄像头视频流。为了确保场景展开的可复现性和可编辑性X-World 还支持对动态交通智体和静态道路元素的可选控制并保留用于外观级控制例如天气和时间的文本提示界面。除了世界模拟之外X-World 还支持通过外观提示进行视频风格迁移同时保留底层动作和场景动态。X-World 的核心是一个多视角潜在视频生成器旨在明确地鼓励在各种控制信号下实现跨视角几何一致性和时间连贯性。实验表明X-World 能够生成高质量的多视角视频其特点包括(i) 跨摄像头视角一致性强(ii) 在长时间滚动过程中保持稳定的时间动态(iii) 具有高度可控性能够严格跟踪动作并忠实地遵循可选的场景控制。这些特性使得 X-World 成为可扩展且可复现评估的实用基础。其流式交互式滚动界面进一步使 X-World 非常适合通过闭环仿真进行端到端自动驾驶系统的在线强化学习。数据格式X-World 模型基于整理的数据集进行训练该数据集包含大量高保真度的真实世界驾驶序列。这些序列的特点是其多样性涵盖了各种外部环境、不同的自车行为以及复杂的多智体交互。每个数据样本构成一个 10 秒的时间段并整合了以下多模态数据流• 多视角视频流来自七个环绕摄像头的同步视频流。• 动态物体轨迹动态智能体例如车辆、行人的序列这些动态智体通过高精度动态感知模型识别。• 静态场景元素从高精度静态感知模型获取的静态基础设施例如车道、交通标志的标注。• 文本场景描述由视觉语言模型 (VLM) 生成的驾驶场景自然语言描述。视频数据以每秒 12 帧 (FPS) 的速率记录。每一帧都通过七个不同的、经过校准的摄像头视角提供全面的 360 度环视视图前窄视角、前鱼眼视角、前左视角、前右视角、后左视角、后右视角和后视角。这些摄像头的精确空间配置和视场重叠旨在确保车辆周围的完整覆盖如图左 (a) 所示。注图右b是自我纵向动作的分布信息。视频标注为了在 X-World 中实现精细控制和语义理解构建一个专为自动驾驶场景定制的大规模视频标注流程。与通用视频标注不同该标注侧重于驾驶相关的属性这些属性对于可控场景生成和后续评估至关重要。标注方案。根据定量评估协议每个视频片段都从四个主要维度进行标注• 宏观环境天气晴天、阴天、雨天等、时间黎明、白天、黄昏、夜晚、光照条件和驾驶环境区域类型 道路类型。• 路况路面状况平坦/崎岖、坡度上坡/下坡和路况干燥/潮湿/有水坑。• 交通基础设施是否存在车道线、护栏、交通标志、交通信号灯、建筑物、植被和特殊设施桥梁、施工区域、收费站。• 交通密度五级等级从“空旷”到“拥堵”。自动化流程。给定数据集采用基于VLM的自动化方法。对于每个 10 秒的视频片段从每个 10 秒片段中的所有 7 个摄像头采集同步图像序列。多视角图像序列连同编码字幕模式的结构化提示一起输入到模型中。示例。以下是流程生成的典型视频描述“视频拍摄于阳光明媚的白天地点是一条平坦的城市高速公路光线充足。道路两旁高楼林立绿树成荫清晰的白色车道线和路边护栏清晰可见。远处有一座人行天桥横跨道路。交通信号灯和标志清晰可见。车流量适中。”这种结构化的、规则驱动的方法确保数据集中的每个视频片段都配有准确、一致且语义丰富的文本描述为 X-World 的可控生成能力奠定了基础。自动标注为了理解数据的自然分布实现对数据分布的更精细控制并便于快速选择数据进行小规模特征验证开发一个全面、结构清晰且粒度细化的三级标签分类体系。基于任务需求定义四大类标签• 环境标签描述场景层面的整体特征包含 11 个子类别天气、光照、路面状况、路面类型、道路曲率、道路坡度、道路结构、道路类型、交通状况、车道清晰度和车道数量状况。每个子类别包含若干细粒度标签因此环境标签类别下共有 50 个三级标签。• 静态标签包含 24 个三级标签分为道路标线、车道线、道路边界、交通标志、信号灯、交通信号灯和静态障碍物。• 动态标签重点描述五种类型的交通参与者。• 自车行为标签包含 21 个三级标签主要分为纵向、横向、物体交互、场景交互和非合理行为。该标签分类体系的构建主要依赖于四个信息源(i) 高精度动态感知网络主要用于静态标签(ii) 高精度静态感知网络主要用于动态标签(iii) 结合高精度传感器获取的车辆姿态信息的鲁棒在线姿态估计系统主要用于自车行为标签以及 (iv) 通用VLM主要用于环境标签。数据分布其投入大量的计算资源来标注整个训练数据集从而能够全面分析自然数据分布并基于统计分析和模型性能对训练集进行相应的调整。利用这些标签进行大量的迭代实验从中提取对模型训练有价值的指导。例如上图 (b) 展示自车纵向行为的分布绝大多数为正常驾驶74.8%其次是静止状态21.0%其余类别构成长尾分布。该分析直接指导数据收集——例如如果模型在急加速时表现不佳会优先采集更多此类样本以提高整体性能。概述现代具身智体包括自动驾驶系统主要通过摄像头感知和推理世界。因此这些智体可获取的有效“世界状态”并非一个紧凑的潜变量向量而是一个高维图像流即视频。这样本文构建一个直接在与下游策略最相关的观测空间中运行的世界模型动作条件视频。如图所示提出 X-World这是一个生成式世界模型它被构建为一个基于动作条件的多摄像头视频生成模型。给定一段同步的多视角摄像头视频流的简短历史记录该模型可以预测执行特定未来动作序列后产生的未来摄像头观测结果。具体来说模型以以下内容作为输入(i) 来自 V 个摄像头的多摄像头视频历史记录 X1:V_t−L:t代表场景的近期视觉上下文(ii) 自车将要执行的未来驾驶动作 A_t:tH以及 (iii) 可选的场景控制条件 C用于指定环境的可控方面。然后它生成相应的多摄像头未来视频 Xˆ1:V_t1:tH该视频 (i) 视觉上逼真(ii) 在不同视角之间保持一致以及 (iii) 忠实地执行指令动作。评估和训练的一个关键实际要求是可复现性通常希望模拟器在特定条件下生成相同的未来或一组受控的未来。为此模型可选地支持对动态交通主体例如周围车辆、行人和静态道路元素例如车道拓扑结构、道路布局提示的显式控制。当提供此类条件 C 时模型可以生成场景一致且可复现的未来场景从而实现受控的反事实部署、公平的基准测试和系统的压力测试。模型设计X-World 基于最先进的 WAN 2.2 [11] 构建遵循其潜视频生成范式该范式将视频 VAE 与基于 DiT 的潜去噪器 [10] 相结合。具体而言与 WAN 2.2 5B [11] 一致采用一种高压缩率的 3D 因果变分自编码器实现 16 倍的空间压缩比和 4 倍的时间压缩比生成通道维度为 48 的潜变量。在这种紧凑的时空潜变量空间中运行显著降低计算和内存开销从而 (i) 能够对更长的视频序列进行预训练以更好地捕捉丰富的时空依赖关系以及 (ii) 加快下游部署的推理速度。为了解决多摄像头自动驾驶场景中几何一致性的关键挑战引入一个定制的 DiT 模块该模块专为 X-World 的多条件生成框架而设计。该设计有两个关键目标(i) 强制执行具有强跨视角一致性的时空建模以及 (ii) 在异构条件信号例如动作、摄像头参数、动态代理、静态道路元素和文本提示下实现可控生成并将跨条件干扰降至最低。视角-时间自注意机制。架构的核心是一个视角-时间自注意模块它显式地对时间维度和跨视角维度上的交互进行建模。具体来说自注意机制在多个摄像头和多个时间步长上交替地对潜token执行从而允许特征在不同视角之间对齐和交换信息同时保持时间一致性。这种机制有助于在同步摄像头之间保持一致的几何形状、物体标识和运动模式。条件注入策略。采用适合模态的条件注入机制来平衡表达能力和稳定性。具体来说使用i自适应层归一化来注入动作和扩散/流动时间步长ii加性嵌入来注入摄像头参数以及iii交叉注意机制来注入高级结构化条件包括动态智体、静态道路元素和文本提示。用于异构条件的解耦交叉注意机制。采用解耦的交叉注意层以模块化的方式融合异构条件源。并非将所有条件都注入到单一的共享注意通路中而是为不同的模态分配独立的交叉注意分支。保留 WAN 2.2 5B 中的原始文本条件分支以支持可选的外观和场景级控制例如天气、日期和其他全局属性。对于动态和静态控制引入新的交叉注意分支。这种解耦减少条件类型之间的相互干扰提高可控性使模型能够更忠实地跟踪每个条件信号。条件X-World 提供一套全面的条件控制接口能够对驾驶场景生成过程进行精细化操控。这些接口包括自车动作、动态代理、静态道路元素例如车道线和边界以及相机内部和外部参数。自车动作。在世界模型中控制自车动作可以实现基于规划机动动作的因果一致的未来仿真这对于闭环规划和安全验证至关重要。与高级指令条件不同该模型能够通过输入一系列未来的运动学状态速度、曲率、横滚和俯仰来实现直接且连续的控制。考虑到这四个运动学变量的数值尺度差异首先通过符号对数归一化 [13] 对每个变量进行归一化。为了捕捉标量值的细微差别随后应用傅里叶特征编码。然后使用多层感知器 (MLP) 将编码后的表示投影并对齐到潜空间维度。最后引入时间戳嵌入并通过adaLN-Zero [10] 将组合后的条件信号注入扩散模块。动力学智体。在世界模型中控制动力学智体能够模拟多样化的交互式交通行为这对于在真实的多智体场景下评估自动驾驶策略的鲁棒性和安全性至关重要。为了表示动力学智体首先从检测模型中提取它们的语义类别例如SUV、行人、自行车和空间坐标。每个类别属性都通过umT5编码器[4]进行编码而空间坐标则经过归一化处理并使用傅里叶特征编码进一步处理以保留精细的位置细节。然后这些异构特征被连接起来并通过多层感知器MLP投影到统一的特征维度。为了有效地控制生成过程将生成的智体嵌入通过交叉注意层注入到潜空间中使模型能够在每次去噪步骤中动态地关注相关的智体信息。这种设计能够灵活地控制多个交通参与者的行为和位置。静态元素。在世界模型中控制静态道路元素例如车道线、边界可以实现对各种道路拓扑结构和交通规则的指定这对于在不同的环境布局下生成符合场景且几何上合理的未来模拟至关重要。与用于动力学智体的编码和注入方案类似首先通过检测模型提取静态道路元素的语义类别和位置信息。类别标签使用 umT5 进行编码而归一化的位置坐标则通过傅里叶特征编码嵌入。然后这些表示通过多层感知器 (MLP) 投影并对齐到目标特征维度随后通过交叉注意层注入到扩散潜空间中。然而与动力学智体不同静态元素在推理过程中需要更强的条件约束以确保几何和语义的一致性。为此在测试阶段采用无分类器引导 (CFG)并在训练阶段引入随机丢弃dropout策略。这种设计确保模型对不同级别的条件控制保持鲁棒性并且能够在明确的静态约束下忠实地生成与场景一致的未来。相机参数。在世界模型中控制相机内参和外参可以生成基于不同传感器配置和视角的未来图像序列从而适应各种车辆类型和相机设置。这种能力对于学习视角感知表示以及在闭环仿真中评估异构传感器配置下的规划模型至关重要。相机内参和外参首先分别进行归一化然后连接起来并通过多层感知器MLP进行特征投影和维度对齐。得到的嵌入通过加性条件化模块直接注入到潜空间中。I2V/V2V/C2V 统一X-World 通过控制训练期间历史输入的长度来支持多种生成模式。令 L 表示提供给模型的干净历史帧的数量。当 L1 时模型以图像-到-视频I2V模式运行其中第一个多相机帧锚定外观和几何形状模型生成后续的未来帧。当 L1 时模型自然而然地变为视频-到-视频 (V2V) 模型它基于多帧观测历史生成未来的多视角视频。当 L0 时模型生成的视频完全基于提供的动作和其他控制条件称之为条件-到-视频 (C2V) 模型。注C2V 是一个有用的训练辅助产品但严格来说它并非世界模型因为它不依赖于当前观测状态因此无法对状态转换进行建模。尽管如此C2V 仍然具有实际价值它能够在固定动作和场景控制下实现可控的数据合成和外观驱动的风格迁移例如改变天气或时间从而补充了主要世界模型的功能。训练如图所示模型分两个阶段进行训练。第一阶段将一个大型预训练视频生成器适配成一个完全可控的双向多摄像头世界模型而第二阶段则将其转换为一个用于实时交互和长时域滚动的流式自回归模拟器。第一阶段用于精确可控性的双向 I2V 训练初始化。用 WAN 2.2 5B TI2V [11] 初始化 X-World。从WAN 继承的参数直接加载而为多摄像头和多条件设置新引入的模块则随机初始化。训练数据。第一阶段 (Stage-I) 使用同步的多摄像头短视频片段进行训练每个片段包含 81 帧。每个样本都与相应的驾驶动作配对并在可用时包含场景级文本描述和结构化的动态/静态控制信号。修正流目标。令 y 表示要生成的目标潜视频例如未来多摄像头帧的潜序列令 c 表示条件输入其中包括历史潜值当 L 0 时、动作、摄像头参数、可选的动态/静态控制以及文本提示。根据修正流[9]对 t ∼ U (0, 1) 进行采样并构建数据样本 y_0 ∼ p_data (y | c) 与高斯噪声 y_1 ∼ N (0, 1) 之间的插值y_t (1 − t)y_0 ty_1.修正流学习沿该修正路径的时变速度场 v_θ (y_t , t, c)使其与恒定目标流 y_1 − y_0 相匹配。第一阶段的训练目标是L_RF(θ)。结果与局限性。经过第一阶段的训练获得一个功能齐全的双向世界模型该模型能够生成具有精确可控性的高质量多摄像头未来场景。然而与WAN类似第一阶段 (Stage-I) 依赖于双向多步采样过程通常高质量需要约 50 个精细化步骤该过程离线生成完整的短视频片段因此更适合短视频合成而非低延迟、长时域的流媒体发布。第二阶段 (Stage-II)用于流媒体长时域仿真的因果少步训练第一阶段 (Stage-I) 生成一个强大的世界模型最适合短视频生成。然而由于它依赖于多步双向迭代过程因此并不直接适用于实时交互式长时域发布。为了解决这一局限性在第二阶段 (Stage-II) 中将其转换为因果少步生成器。与离线生成完整视频片段的双向模型相比我因果模型支持流媒体推理它逐块生成并返回未来的视频而无需等待整个序列生成完成。这实现低延迟交互并自然地适用于闭环设置中的长时域展开。分块因果架构。因果生成器天然支持自回归推理未来的分块按顺序生成每个分块仅以过去的上下文历史观测、先前生成的分块以及动作/场景条件为条件。在这种设置下KV缓存通过重用先前分块的注意K/V进一步提高效率避免每一步都重新计算过去上下文的注意并大幅减少推理计算。借鉴 CausVid [16]将第一阶段的双向模型修改为分块因果模型。具体来说将潜序列沿时间维度划分为连续的分块。在每个分块内tokens仍然进行双向交互以保持局部时空一致性和生成质量。然而通过阻止token关注任何未来的分块来强制执行分块级因果关系。因此该模型在保持丰富的块内建模能力的同时实现了时间上的因果关系。这种设计提供了一种有利的权衡它既支持在线生成和低延迟发布又避免了严格的基于token因果视频生成中常见的质量下降问题。少步自强制训练。为了在真实的发布条件下训练第二阶段的因果生成器采用自强制训练[6]。该模型并非基于真实历史上下文教师强制/扩散强制[3]而是基于自身的自回归发布进行训练这显著减少训练集与测试集之间的不匹配而这种不匹配通常会导致长时程生成中误差的累积。具体来说生成过程以分块方式进行训练和推理均启用了KV缓存。对于每个新分块首先使用标准高斯分布初始化其潜分布然后基于先前生成的干净帧以及动作和可选的动态/静态条件执行四步去噪。这生成一个由第二阶段因果模型诱导的自展开分布。然后使用分布匹配蒸馏DMDdistribution matching distillation损失[14, 15]优化模型该损失最小化自展开分布与由第一阶段双向教师模型表示的目标分布之间的反向KL散度。通过在自生成的上下文中匹配教师分布自强制方法可以减轻曝光偏差并减少自回归展开中的累积误差从而实现更稳定的长时域生成。此外由于每个分块都经过训练以使用固定的、较小的去噪预算生成因此最终模型自然而然地成为一个适用于实时流模拟的少步生成器。利用展开KV缓存生成长视频。推理过程中用固定大小的滚动KV缓存支持长时域展开。具体来说分配一个预定容量的缓存来存储先前生成的视频块注意KV张量。随着视频块的逐个生成新生成的KV会被添加到缓存中。当缓存达到容量上限时会按照先进先出FIFO规则移除最旧的条目从而确保模型始终关注最新上下文的滑动窗口。这种设计既保证内存使用量有限和运行时间稳定又为连贯的长视频展开提供足够的近期时间上下文。总而言之第二阶段生成一个因果的、少步的、流式多视图生成世界模型该模型保持第一阶段学习的可控性同时实现端到端/VLA自动驾驶系统所需的实时交互和长视频生成满足可扩展评估和在线强化学习训练的需求。除了简单的视频生成之外X-World 还可作为高保真、响应迅速且可控的平台用于开发和验证下一代视觉-语言-动作 (VLA 2.0) 策略。VLA 2.0 闭环评估引擎虽然传统的基于 3DGS 的仿真评估能够精确地重现端到端驾驶模型的行驶轨迹但它们无法处理自动驾驶模型进行大幅度变道或行驶轨迹与真实车辆采集的日志完全不同的场景。X-World 作为生成式仿真器能够实现 VLA 2.0 的全闭环测试。响应式部署与静态日志回放不同X-World 能够响应自车实时规划的行驶轨迹。如果 VLA 2.0 执行突然制动或转向操作X-World 会相应地更新未来的多视角观测数据从而保持时间和因果关系的一致性。安全关键指标通过在 X-World 中运行 VLA 2.0可以在一个与真实世界视觉分布高度相似的虚拟环境中测量高级性能指标例如碰撞率、目标完成进度和乘坐舒适度。场景 1反事实行动展开。在记录的视频中自车选择等待前方车辆而该车辆实际上已停放。在相同的初始场景下用 X-World 展开一个基于替代策略行动的反事实未来测试的策略模型决定绕过停放的车辆。 X-World 生成了一个与此操作一致的连贯的多摄像头未来场景从而能够对策略是否能在确保安全的前提下采取更高效的行动进行可扩展的评估。场景 2针对安全关键压力测试的场景编辑。在记录的视频中自车直线行驶从左前方经过一辆附近的黑色轿车。然后编辑场景插入一名骑自行车的人他从黑色轿车后方突然出现最初被轿车遮挡。在这种编辑条件下X-World 生成具有一致遮挡和运动的高质量未来场景并且测试的策略模型成功地在骑自行车的人之前停车避让自行车安全避免了碰撞。这些示例共同表明X-World 可以通过以下方式支持闭环评估(i) 在同一场景下展开不同的自车行动(ii) 通过可控的场景编辑生成逼真的、安全关键的反事实场景从而为端到端/VLA 策略开发提供了一个实用的测试平台。在线强化学习模拟器为了弥合模仿学习与专家级表现之间的差距用 X-World 作为在线强化学习 (RL) 的训练环境。硬场景特化我用 X-World 的可控性在 VLA 2.0 通常表现不佳的场景例如十字路口的“隐形人”或拥堵路段的犹豫不决的变道中对其进行压力测试。高效探索通过在 X-World 中微调策略VLA 模型可以探索各种不同的动作序列并获得即时的视觉反馈。这种迭代循环使模型能够学习从接近事故状态在现实世界中过于危险而无法探索的场景中恢复行为。大规模数据合成与增强X-World 充当生成式数据工厂的角色合成难以通过车队车辆收集的稀有且高价值的数据资产。极端情况生成可以通过程序生成安全关键事件例如极端天气条件、罕见车辆类型或异常行人行为从而提供均衡的训练分布缓解长尾问题。海外扩展为了支持全球战略X-World 支持数据“零样本迁移”。通过基于本地化的外观提示例如欧洲道路标线、独特的交通标志或左侧通行规则对模型进行条件化可以将国内驾驶数据转化为海外训练资源从而显著加快国际部署速度而无需进行大量的本地数据收集。