用于机器人学习的世界模型:一项综合综述
26年4月来自南阳理工、UC Berkeley、Stanford、东京大学、牛津、微软、苏黎世 ETH、普林斯顿和哈佛的论文World Model for Robot Learning: A Comprehensive Survey。世界模型World Models作为一种用于预测环境在特定动作作用下如何演变的表征形式已成为机器人学习领域的核心组成部分。它们为策略学习、规划、仿真、评估及数据生成提供有力支撑并随着基础模型Foundation Models及大规模视频生成技术的兴起而取得飞速发展。然而现有文献在模型架构、功能定位及具身应用领域方面仍呈现出较为分散且碎片化的状态。为弥补这一空白本文从机器人学习的视角出发对世界模型进行全面综述。其深入探讨世界模型如何与机器人策略进行耦合如何作为一种“学习仿真器”服务于强化学习与系统评估以及机器人视频世界模型如何从基于“想象”的生成阶段演进至具备可控性、结构化特征及基础模型规模的新范式。此外其将上述理念与机器人导航及自动驾驶等具体应用场景相结合并对该领域内具有代表性的数据集、基准测试及评估规范进行归纳总结。总体而言本综述系统地梳理机器人学习领域中关于世界模型快速增长的文献明确该领域的关键范式与应用场景并指出具身智体Embodied Agents预测建模所面临的主要挑战及未来的发展方向。机器人策略学习正迅速从针对特定任务的控制流程转向由基础模型驱动的具身智能范式。近期提出的“视觉-语言-动作”VLA策略Zitkovich et al., 2023; Kim et al., 2025; Black et al., 2024; Intelligence et al., 2025b; Wu et al., 2024旨在通过将多模态观测直接映射到机器人动作从而统一感知、语言理解与控制能力这一范式有望实现广泛的任务泛化能力及灵活的指令遵循能力。然而尽管此类策略展现出强劲的规模化趋势Xiao et al., 2025; Li et al., 2025b; Zhu et al., 2026但纯粹的反应式 VLA 策略在复杂的物理环境中仍显局限它们往往难以应对长时程推理、时序信用分配以及在误差累积情境下的鲁棒性挑战。越来越多的研究指出这些局限性不仅源于动作预测能力的不足Ye et al., 2026b; Dang et al., 2026更归因于缺乏一种显式的预测结构无法预判在智能体采取行动后所处的世界将如何演变。这一认知重新激发学界对“世界模型”Craik, 1943; Bryson and Ho, 1975; Ha and Schmidhuber, 2018的兴趣所谓世界模型即一种能够捕捉环境动态的预测性表征使智体能够在实际行动之前先行对未来的状态进行推理。“世界模型”Craik, 1943; Bryson and Ho, 1975; Ha and Schmidhuber, 2018这一术语拥有深厚的学术渊源。其核心内涵在于描述在受到干预或采取行动时一个系统或环境将如何从当前状态演化在其最标准的形式下世界模型可被视为一种“状态转移模型”能够依据当前状态及所采取的动作预测出下一时刻的状态或一系列未来的状态。这一概念的早期思想可追溯至 20 世纪 60 年代的认知科学领域Miller et al., 1960当时学者们提出“内部模型”的概念旨在为心理模拟、预测及规划等认知过程提供支撑。类似的思想也曾出现在控制理论和基于模型的决策制定中Conant Ashby, 1970; Bryson Ho, 1975; Richalet et al., 1978以及经典的机器人规划领域——在该领域中关于几何、约束和动作后果的内部模型被用于在执行前辅助决策Lozano-Perez, 1983。在现代机器学习中“世界模型”World Models的复兴主要由两条进展主线所驱动Ha Schmidhuber, 2018一是基于模型的强化学习Nguyen Widrow, 1990; Jiang et al., 2026; Zhu et al., 2026该方法利用学得的动力学模型进行规划和策略改进二是大规模生成建模Ali et al., 2025; Guo et al., 2025; Jiang et al., 2025b; Jang et al., 2025b——尤其是视频生成技术——它能够从大规模的视觉或交互数据中学习丰富的时空规律。综合来看这些进展使得直接从像素数据中学习预测性表征并将其复用于具身决策embodied decision making变得日益可行。本综述并未强行套用某种狭隘且单一的形式化定义而是采取一种以“机器人学习”为核心视角的“世界模型”观。关注重点在于关于未来世界演变的预测模型究竟如何辅助机器人的策略学习、规划、仿真、评估以及数据生成等任务。在这一视角下世界模型可以通过显式的“推演”rollout、基于未来状态的动作推断或联合预测-控制建模等方式来辅助动作的选择。将这些方法统一起来的要素并非某种单一的模型分解形式而是它们作为“预测性结构”所发挥的核心作用——即让机器人的决策过程变得更加知情且更具物理基础。此外在此处所使用的“动作”概念也具有一种广义的预测-控制内涵低层级的运动指令规定智体应“如何”移动而高层级的语言指令则规定了未来应实现“什么”样的状态。这一视角也将机器人领域的世界模型与通用的感知预测器区分开来在具身人工智能Embodied AI领域中预测模型的质量之所以重要仅仅是因为这种质量对于辅助动作执行具有实际的效用。因此一个具有可操作性的世界模型应当具备三项核心能力预见能力Mi et al., 2026; Li et al., 2026b; Gu et al., 2026; Bi et al., 2025即在执行动作之前预判未来的状态或动作后果基于想象的规划能力Kim et al., 2026即利用想象中的演化推演来比较并筛选候选行为以及数据扩增能力Jang et al., 2025b; Ali et al., 2025即合成额外的演示样本或交互轨迹以辅助学习。对于操纵、导航和驾驶等具身任务而言这些能力尤为关键在这些任务中任务的成败取决于对接触、动力学及其他物理规律的推理能力而仅凭以语言为中心的大规模预训练是无法捕捉到这些物理规律的。从这一意义上讲世界模型不仅仅是一种生成式的能力增强手段更是一座连接语义意图与物理可实现行为之间的预测性桥梁。从历史上看将世界模型整合到机器人策略中的演进主要沿着两个方向展开一是加强预测建模与动作生成之间的耦合Du et al., 2023; Li et al., 2025c; Zhu et al., 2025a二是更广泛地利用学习的世界模型作为仿真器用于验证、后训练以及强化学习Xiao et al., 2025; Li et al., 2025b; Chandra et al., 2025。随着基础级视频模型foundation-scale video models的兴起Wan, 2025; Ali et al., 2025近期的一些方法开始探索将大型视频生成模型适配为机器人策略Li et al., 2025c; Zhu et al., 2025a旨在通过未来预测来提升泛化能力和样本效率Jang et al., 2025b而后续的系统则进一步迈向与 VLA视觉-语言-动作策略进行统一训练及闭环协同优化的方向Cen et al., 2025。与此同时世界模型正日益被用作可控仿真器服务于后训练与评估环节Zhu et al., 2026; Xiao et al., 2025这突显出其核心目标不仅在于生成看似合理的未来情景更在于生成与控制指令保持一致的未来情景从而为决策制定提供有力支撑。受上述趋势的启发本综述在以下三个主要方面有别于此前的相关综述Zhang et al., 2025d首先它对主要的世界模型范式提供更为细致入微的视角其次它对世界模型在策略学习、规划、仿真、评估以及视频生成等各个环节中所扮演的角色进行更为全面的剖析最后它基于机器人学的核心视角针对世界模型在 VLA 策略与机器人学习语境下的定义给出更为清晰的界定。通过着重强调“动作条件一致性”、“长时程可靠性”以及“实际部署可行性”本综述旨在阐明世界模型究竟在何时、因何机制能够转化为机器人实际行为中可量化的性能提升。如图 1 所示该综述的结构如图2所示机器人策略学习中世界模型代表行工作的时间演化表在策略层面早期的解耦式流水线Hu et al., 2025; Du et al., 2023依然是一条重要的研究主线与此同时设计空间已逐步向单骨干网络Kim et al., 2026、统一视觉-语言-动作VLA模型Cen et al., 2025以及隐空间世界建模Su et al., 2026等方法拓展这些新范式在预测与动作生成之间实现更为紧密的集成。在模拟器层面其职能已不再局限于基于对未来情景的想象来验证或排序候选动作而是进一步拓展为强化学习、后训练阶段乃至与策略进行协同演化的“可学习环境”Li et al., 2025b; Guo et al., 2026a; Liu et al., 2026b。综合来看这两大趋势表明世界模型已不再仅仅充当辅助性的预测器而是日益深度地融入到机器人系统的核心学习与决策循环之中。在功能层面上我们将“世界模型”定义为一类预测模型其输出能够为与策略相关的计算提供支持涵盖控制、规划、仿真、评估以及数据生成等环节。其核心特征不仅在于预测一种合乎情理的未来情景更在于能够预测在机器人执行相关动作时未来状态将如何演变从而为具身决策提供有力支撑。与基于隐状态的世界模型相比视频生成模型的构建方式保留更为丰富的空间、时间及交互细节因为其将未来显式地表示为视觉证据而非抽象的状态变量。基于上述视角此类模型可被理解为一种在视觉观测空间中具象化的世界模型。从架构视角来看当代的机器人策略主要呈现出两大范式专用的视觉-运动Visuomotor策略以及通用的视觉-语言-动作VLA模型。前者以 Diffusion PolicyChi2023, 2025aDasari2025等框架为代表专注于训练针对特定任务、且通常较为轻量化的端到端网络这类网络利用生成式建模技术能够以高精度和低延迟捕捉复杂的动作分布。相比之下VLA 模型以 RT-2Zitkovich2023、OpenVLAKim2025和 π0Black2024为先驱其开发方式是通过在海量的机器人轨迹数据Open X-Embodiment Collaboration2024上对大规模视觉-语言模型VLM进行微调借此VLA 模型得以继承基础模型所蕴含的丰富语义知识和开放词汇推理能力从而在跨任务Octo Model Team2024和跨具身Doshi2024泛化方面实现卓越的表现。视觉运动策略在原始状态与动作空间之间建立一种直接映射从而形成一种架构通常较为轻量、但泛化能力受限的体系。其中最直接的方法是将这种映射建模为一项回归任务Bain and Sammut, 1995; Osa et al., 2018; Zhao et al., 2023。在这一范式下神经网络对当前观测进行编码并以确定性的方式直接回归出连续的物理动作数值。为了充分利用 VLM 强大的推理能力VLA 模型通常会在预训练的主干网络上配备专用的动作头并利用机器人轨迹数据对整个框架进行联合微调。在 VLA 模型中动作预测主要融合离散与连续的表征范式。一方面离散动作token化discrete action tokenization将连续动作量化为离散的tokens使其处于与语言模型相同的词汇空间之中从而直接利用视觉-语言模型VLM的“下一token预测”能力Liu et al., 2025aRT-2Zitkovich et al., 2023和 OpenVLAKim et al., 2025便是这一方法的成功典范。另一方面为了克服量化误差并确保高频控制中的精度连续动作表征已作为一种极具潜力的替代方案应运而生。该方法通常将动作输出模块action head视为一个条件生成器通过学习概率生成模型——例如扩散模型或流匹配flow matching——来实现功能π 系列模型Black et al., 2024; Intelligence et al., 2025a,b便是这一理念的成功典范。这些生成式建模范式不再仅仅预测确定性的数值而是对人类演示动作所蕴含的完整多模态分布进行建模。1 世界模型为何有助于机器人策略学习近期的机器人策略日益倾向于整合“世界模型”World Models——这类模型通常以视频生成模型的形式呈现——其原因在于大规模的视频预训练能够为时序动态及物理规律提供有益的先验知识。世界模型的裨益不仅局限于预测未来更在于能够提供结构化的预测表征从而有效降低动作生成的模糊性。通过将预期的未来结果而非仅仅当前的观测作为决策依据机器人策略得以具备更长远的预见能力并获得更为丰富且具有信息量的控制基础。策略模型、被动世界模型视频生成模型、可控世界模型以及逆动力学模型并非完全独立的抽象概念相反它们对应于对同一理想化联合分布进行查询或分解的不同方式。这也解释为何世界模型与策略能够自然地耦合策略可以将由世界模型生成的未来观测结果作为一种中间隐变量来使用而一种类逆动力学的解码器则可以依据这些预测出的未来情景反演出可执行的动作。因此将世界模型整合进策略学习的过程从更广义的角度来看可以视为在动作生成过程中引入一种预测性的结构。模型不再是学习一种从当前观测结果到动作的直接、单一的映射关系而是将未来观测结果作为辅助性的预测变量进行推理利用这些变量来指导或约束动作的选择。在某些具体的模型设计中模型首先预测出一种合理的未来情景随后以此未来情景为条件来解码生成动作而在另一些设计中模型则先生成候选动作随后通过预测出的未来结果对这些动作进行评估或正则化处理。更为统一的建模方法则是将观测结果与动作置于同一个共享的生成过程中进行联合建模。2 结合世界模型的逆动力学IDM策略一类具有代表性的研究工作通过一种解耦设计将世界模型整合到机器人控制中在该设计中未来预测与动作生成分别由两个独立的模块实现。其核心思想是首先利用世界模型通常是图像或视频生成模型来预测基于任务条件的未来观测序列或其潜在表征随后训练一个独立的策略模块使其能够结合当前观测与预测的未来状态推导出可执行的动作。与那些在单一主干网络中联合建模感知、预测与控制的统一式端到端策略不同这种范式保留明确的功能分离世界模型提供一种关于“接下来会发生什么”的结构化假设而策略模块则将这些预期的未来状态转化为低层级的动作。如图 3(a) 所示此类方法采用一种“先预测、后行动”的解耦式流程世界模型首先生成未来观测或其预测表征随后一个独立的、采用逆动力学风格的策略模块将这些预期的未来状态映射为可执行的动作。从历史上看该领域早期的工作确立“先预测、后行动”这一基本的解耦范式。随后的方法主要通过逐步重新设计呈现给策略policy的未来表征形式来推动这一范式的演进。一个与之相关且互补的研究方向是将更具结构化的几何中间表征引入到这一解耦流程中。这些方法不再仅仅将生成或演示的视频用作原始的视觉未来信号而是进一步从视频中提取具有三维感知能力的运动结构并将其用作与行动关联度更高的预测先验信息。从这个意义上讲其关键接口依然是以视觉为基础的但对未来的表征采用更具结构化的形式例如稠密对应关系、三维轨迹、运动场或可执行的三维流场。此类方法的一个显著特征在于其架构上的解耦预测模型通常会先进行预训练随后被冻结、进行轻度微调或连接至一个独立的策略头部而非与行动生成模块进行联合优化。这种分离设计带来模块化特性、可复用的视频先验信息以及可解释的未来预测能力但与此同时其性能也会受限于所生成未来的保真度与可控性另外若视觉上看似合理的预测结果与实际行动需求不一致还可能导致误差的累积。尽管如此这一范式依然是“世界模型”World Models得以直接应用于机器人策略学习上最早且最具影响力的途径之一它也顺理成章地为后来出现的、在视频与行动之间实现更紧密耦合的架构设计提供内在的驱动力。3 基于单一世界模型主干的统一策略与上述那种解耦的“逆动力学”式流程不同另一类耦合更为紧密的研究路径采用单一的生成式主干网络对未来的视觉演变及后续动作进行联合建模。图 3(b) 直观地概括这一范式转变该方法不再将世界模型的预测结果传递给下游的策略模块而是将观测与动作对应的tokens置于同一个共享主干网络中进行处理从而使未来的状态建模与动作生成紧密耦合于同一生成流程之中。这一设计背后的深层动因远不止在于视频模型能够“想象”未来的观测画面更在于那些经过预训练的视频生成式主干网络其架构与参数本身即针对时序预测建模任务而进行高度优化。与许多主要通过图像-文本或视觉-语言对齐目标进行预训练并因此强调语义对应关系的视觉-语言模型VLMKim et al., 2025; Black et al., 2024不同视频生成模型旨在对时间顺序的观测进行建模并可能编码关于运动连续性、时间因果关系和近似物理动力学的有用先验信息。当动作生成嵌入到与未来世界演化建模相同的去噪或生成过程中时该策略可能会受益于已经倾向于跨时间传播约束的骨干网络。然而视频预训练的骨干网络是否始终优于匹配尺度的VLM骨干网络用于机器人控制仍然是一个开放的实证问题目前的结果应被视为对一种有前景的归纳偏差的提示性证据而不是最终的架构结论。从总体上看该模型族用统一的多模态生成目标取代了之前那种“先预测-后行动”的两阶段分解。随后的方法通过最小化视觉预测与控制之间的表征鸿沟进一步强化这种耦合。Cosmos Policy (Kim et al., 2026) 是这一理念的一个尤为直接的实现它保持预训练的视频扩散架构基本不变并将机器人动作、未来状态及价值编码为原始扩散序列中的额外潜“帧”。在推理阶段这些输出无需全部被对称地使用在直接策略模式下仅需动作输出即可执行任务而在规划模式下未来状态和价值预测可用于对候选轨迹进行排序。DreamZero (Ye et al., 2026b) 沿袭同样的端到端理念采用一种基于自回归流匹配flow-matching的视频-动作 DiT 模型但它执行的是闭环、分块式的联合去噪而非自由运行的长时程轨迹展开rollout从而在保持紧密的视频-动作对齐的同时有效抑制误差累积。归根结底这些统一方法之间的关键差异并非在于它们是否都在线生成完整的未来视频而在于在执行控制任务时视觉分支在多大程度上保持活跃。部分方法为了保持一致性或支持规划决策保留显式的未来预测功能而另一些方法则在保留联合训练所带来的优势的同时为了提升效率而对视觉分支进行边缘化、截断或部分舍弃处理。在所有这些案例中与前述的解耦式方法不同世界模型不再被视为一个独立的上游模块供下游策略所调用。取而代之的是世界建模与策略学习被融合为一个单一的生成过程从而为将大规模视频预训练中所蕴含的时空先验知识注入到控制任务中提供一条可行的路径。4 采用专家世界模型主干的 MoE/MoT 风格策略与上述采用单一主干的生成器相比另一类在架构上截然不同但密切相关的研究工作通过为视频预测、动作生成有时也包括语言或场景理解维护独立的专家流从而保留显式的专业化分工。这些方法并未将所有模态融合进单一的共享扩散主干中而是采用 MoE/MoT 风格Liang et al., 2025b或多分支设计在此类设计中针对特定模态的专家们通过共享注意、交叉注意或交错的自回归序列进行交互。如图 3© 所示与单一主干模型不同这些模型保留独立的视频专家与动作专家并通过反复的交互将二者耦合起来。其核心动机依然是将预训练视频扩散模型Wan, 2025; Ali et al., 2025所蕴含的时空先验与物理先验迁移至控制任务中但这一过程是基于一种不同的架构假设即全参数共享并非总是最优解因为视频预测与动作生成在时间频率、表征尺度以及优化需求上均存在差异。从这一意义上讲这些模型与 π0 (Black et al., 2024) 和 π0.5 (Intelligence et al., 2025b) 等专家化 VLA 设计颇为相似唯一的区别在于它们的主干网络并非主要充当静态语义编码器而是一个具备时间预测能力的视频生成器——其所产生的表征可能蕴含着关于运动连续性、时间因果关系以及近似物理动力学的有用线索。从宏观层面来看这些方法可被视为通过特定领域的“专家”模块来学习一种耦合的预测-控制映射关系。基于这一视角视频分支充当着一种具有时序预测能力的隐变量流而策略的生成并非通过完全独立的下游头部模块来解码动作而是通过将这种“预见信息”反复注入到动作分支中来实现的。在这一系列方法中一种常见的模式是“并行专家耦合”即一个预训练好的视频扩散主干网络与一个相对轻量的动作分支相搭配。第二种更为显式的模式是基于“Transformer混合”Mixture-of-Transformers的深度交互机制在该机制下多个专家模块贯穿整个网络始终并通过共享注意机制进行反复融合。Motus (Bi et al., 2025)和LingBot-VA (Li et al., 2026b) 均为此类方法的典型代表。Motus 在设计上最为直观地采用 Transformer 混合模型架构并为场景理解、视频生成及动作执行分别配置专用的专家模块。LingBot-VA 则将这一理念进一步推向“因果世界建模”的高度它将视频与动作对应的 Token 交织编排成一个共享的自回归序列并采用一种具备共享注意的双流 Transformer 混合模型架构从而将模型所“想象”出的未来状态转化为辅助动作精炼的上下文信息。Fast-WAM (Yuan et al., 2026) 可被视为这一系列方法中的一个“混合型”案例它虽然采用具备共享注意机制的 Transformer 混合模型作为主干并耦合视频与动作分支但其研究结论却指出——该方法的主要收益可能更多源自训练阶段的视频协同训练而非推理阶段对未来状态的显式想象。可以看到视频分支的角色正日益发生转变它不再仅仅被视为一个需要被忠实渲染的输出结果而更多地被视为一种具有预测能力的隐变量过程——其内部的隐状态将直接引导动作的生成。第三种模式是“潜空间专家化”latent-space expertization它将世界建模从像素空间转移至结构化的潜动态空间同时保留专用的多模态分支。综合来看这些方法弥合彼此独立的模块化流水线与完全统一的单主干生成器之间的鸿沟。它们将世界建模直接嵌入到策略policy之中同时又保留架构上的专业化特性。具体而言视频扩散模型提供预测性的预见能力而 MoE/MoT 机制则在不丧失特定模态结构的前提下将这种预见转化为具体的行动。与单主干方法相比其关键区别在于架构层面尽管两者都旨在将未来预测与动作生成相耦合但上述方法是通过深度交互的“专业化专家”来实现这一目标的而非采用全参数共享的方式。5 统一的视觉-语言-动作VLA模型统一的 VLA 模型为实现“将世界模型作为策略”这一理念提供另一条途径。尽管这类模型并非总是采用显式的视频世界模型但它们依然在同一个多模态策略主干网络内部学习面向未来的预测结构——例如通过预测未来图像、实现视觉预见或构建结构化的世界知识。如图 4(a) 所示这一类模型与基于视频主干网络的范式截然不同前者对未来的建模被内化到统一的 VLA 架构内部而后者未来建模则是通过独立的预测模块引入的。一个重要的子类执行显式的未来状态预测。这类方法将未来图像的直接预测无论是单帧图像还是短序列图像作为统一训练目标的一部分。第二个子类则用隐式或潜在的未来建模取代像素级的预测。这类方法不再直接预测未来的图像帧而是预测一种紧凑且具备“未来-觉察”能力的表征这种表征与动作的关联更为紧密。第三个子类由多专家或多系统组成的统一模型构成。这类模型在训练和任务层面保持统一但在其内部架构中保留了显式的功能特化分工。综上所述统一的 VLA 模型将“将世界模型作为策略”这一概念的内涵进一步拓展使其不再局限于显式的视频生成。这些方法遵循着一个共同的原则动作生成不再被视为仅仅基于当前观测进行被动响应的映射过程而是与捕捉未来状态演变或其紧凑替代形式的内部预测目标进行联合训练。这里的关键区别并不在于模型是否包含一个显式的、独立的“世界模型”模块而在于面向未来的预测建模是否已被内化到同一个多模态策略主干网络之中。6 基于潜空间世界建模的策略将世界模型整合为策略的另一条途径是由那些将未来预测完全内化于表征空间、而不依赖于显式图像或视频生成的方法所定义的。这些方法并非合成未来的观测图像而是构建预测性的潜目标、具备未来感知能力的嵌入向量或紧凑的控制条件并将它们与同一策略框架内的动作生成过程相耦合。在此语境下世界建模的实现方式不再是视觉重构而是学习一种具备未来-觉察能力的表征这种表征能够捕捉环境可能如何演变并以一种直接有助于控制的形式呈现。因此此类方法通过将预测结构注入动作生成过程保留世界建模的核心优势同时也避免显式生成解码所带来的计算开销与冗余。从概念上讲这一研究方向与 JEPA 系列模型Assran et al., 2023, 2025紧密相关——后者是在嵌入空间而非像素层面进行预测建模不过本文关注重点并非 JEPA 本身而是 VLA 方法的兴起——正是这些方法将上述基于表征空间的预测原理转化为一种切实可行的策略学习机制。图 4(b) 形象地展示这种更为内化的建模变体。在此架构中其主干网络通常依然基于 MLLM多模态大语言模型而非基于视频 DiT 模型但未来建模的功能已被更深层地整合进潜世界表征或参数化的世界知识之中从而使动作生成过程能够直接受控于内部的预测结构而无需进行显式的未来图像解码。除了基于神经网络的潜表征之外另一种相关但更为经典的“非像素级”抽象建模范式体现在基于符号逻辑或面向规划任务的世界模型之中。与基于神经网络的策略主干网络不同此类方法通常将世界建模功能“外化”为一种抽象的状态转移模型该模型基于谓词、物体关系、affordances、操作算子或因果过程构建。随后符号逻辑规划器或任务-动作规划器便可对该模型进行查询从而生成一系列高层级的技能序列Silver et al., 2021; Shah et al., 2025; Liang et al., 2025c; Athalye et al., 2026; Liang et al., 2026。这一研究路线提供一种互补性的视角以强调这样一个事实真正有价值的世界模型未必非得依赖于对像素层面的预测它们同样可以通过捕捉抽象逻辑、物体间的相互关系、因果规律以及符号化的动态演变机制为智体的规划与控制任务提供有力支撑。综上所述其突显一种基于世界模型策略学习的“非像素”路径。其核心主线在于潜空间世界建模在此范式下策略无需显式解码未来的图像或视频却依然能够内化未来的动态信息进而生成相应的动作。上文提及的符号规划器示例进一步印证这一更宏观的观点当潜变量或抽象变量能够为动作生成提供更为直接的接口时那些与控制任务紧密相关的预测信息便可通过这些紧凑的潜变量或抽象变量来加以表达。除了作为用于条件化、规划或内部监督的预测模块之外世界模型还可以更直接地用作交互式模拟器。在这种范式下世界模型的价值不仅在于其对未来演化进行建模的能力更在于其能够直接替代真实环境本身Xiao et al., 2025; Li et al., 2025b; Zhu et al., 2026; Gemini Robotics Team et al., 2025给定当前的观测、任务指令以及候选动作该模型能够推演未来的状态提供反馈信号并通过“想象中的交互”来辅助下游的决策制定。这使得将世界模型用作模拟器成为了具身智能领域中世界建模技术一种尤为直接且实用的扩展应用。这一研究方向对于视觉-运动策略visual-motor policies而言尤具吸引力因为在物理机器人上实施传统的强化学习往往面临速度缓慢、成本高昂、重置困难以及潜在的安全风险等问题而纯粹的模仿学习则受限于演示数据的质量且难以有效地从失败经验中进行学习。因此近期的研究工作采用基于世界模型构建的学习模拟器来替代成本高昂的真实世界交互过程这使得策略的改进不再依赖于反复的物理试错而是通过在模拟器中进行“想象中的推演”来实现Wu et al., 2023。与此同时模拟器视角所带来的益处远不止强化训练这一项。由于世界模型能够根据特定动作序列推演roll out出未来的状态它还能从预测的轨迹中揭示出可验证的信号——例如类奖励反馈Xiao et al., 2025; Li et al., 2025b、任务完成提示或推演一致性等。这些信号不仅有助于策略优化对于评估、排序以及测试时的决策制定也同样具有重要价值。这一点已在现有系统中得到体现这些系统通过引入奖励或终止反馈来增强其学习的模拟器功能而这一理念也很自然地延伸到基于推演的候选行为评估环节中。在此情境下正是那项支撑“想象式训练”的预测能力转而成为一种机制用于在实际执行之前判断某组候选动作序列是否具有成功的潜力。正如图5所归纳的那样世界模型在支持策略学习方面至少扮演着两种截然不同的职能角色一是作为强化学习的“学习模拟器”二是作为决策时刻进行验证的“评估器”。1 用于强化学习的世界模型世界模型在具身学习中的另一项作用是充当用于强化后训练post-training的交互式模拟器。与此前那些主要提供预测条件、规划线索或内部监督的范式不同这里直接将世界模型用作一个学习的环境如图5a所示在这个环境中视觉-语言-动作VLA策略可以展开轨迹、接收奖励并通过“想象中的交互”来实现自我提升。在此设定下世界模型不再仅仅是用于预测可能未来的工具而是演变为承载强化学习过程的媒介。从宏观层面来看这些方法本质上是在一个学习的模拟器内部对策略进行优化。在第一层范式下早期工作通过将“受动作制约的世界模拟”与“奖励生成”相结合确立在学习的模拟器中进行强化学习的基本范式。随后的研究工作使得这一范式与现代 VLA 架构及规模日益庞大的具身数据集愈发兼容。第二层范式的发展明确指出所学习的模拟器本身并非完美必须与策略同步进行改进。综合来看第一层范式将世界模型视为用于强化训练的学习模拟器其差异主要体现在奖励设计、推演表征以及优化兼容性方面。第二层范式则进一步认识到基于想象的强化学习其成效取决于模拟器的可靠程度因此该范式将模拟器精修、推演调控以及策略与世界模型的协同演化引入其中并将其视为整个循环中不可或缺的组成部分。2 用于评估的世界模型除了在强化学习训练后充当学习的模拟器之外世界模型还能够在执行前对候选行为进行评估。在此其目标并非通过反复的“想象交互”来改进策略而是要估算哪一个候选动作序列、策略或检查点在现实世界中最有可能取得成功。如图 5(b) 所示世界模型通过对候选动作的“想象后果”进行评分或验证从而为决策时的选择提供支持。给定当前的观测状态、任务指令以及一个或多个候选动作模型会推演预测出的未来情景并利用这些情景进行排序、筛选或安全过滤。从这个意义上讲评估器的角色是“模拟器”视角的自然延伸一旦世界模型能够替代真实环境它不仅可以用于在想象中进行训练还可以用于判断策略下一步应当采取何种行动。一种直接的评估形式是基于推演rollout的候选方案评估。在此模式下策略会提出多个动作序列世界模型随后预测这些序列的未来结果系统最终从中选出那个具有最理想“想象后果”的候选方案。除了对离散候选方案进行简单的排序之外一种更为主动的范式将世界模型视为模型预测控制MPC中的状态转移动力学。在此设定下系统不再仅仅从少数预定义的动作中进行选取而是主动在世界模型所模拟的轨迹中对动作序列进行优化以实现成本函数的最小化。第二种更为显式的形式是将世界模型本身用作策略评估器。第三种形式则出现在模拟器配备显式反馈头feedback heads的情况下这些反馈头能够将想象出的演化轨迹rollouts转化为评估信号。在潜空间预测型世界模型中——尤其是 JEPA 系列模型——体现一种与之相关但更为轻量级的视角。这些方法并非通过生成显式的像素空间未来图像来对候选动作进行排序而是在嵌入空间中执行预测与规划任务。这种“评估器”视角也阐明为何动作保真度action faithfulness与演化轨迹的可靠性显得如此至关重要。只有当评估器所想象的未来情境能够准确保留候选动作所引发的因果后果时该评估器才具有实际价值。综合来看上述研究工作揭示“模拟器范式”正在经历一次显著的拓展。在具身机器人学习领域世界模型已不再仅仅是用于强化训练的一种低成本环境它正日益被用作一种评估器能够对不同策略进行比较、对候选行为进行评分、预判潜在的故障并为决策时的动作选择及离线策略评估提供支持Li et al., 2025e; Team et al., 2025a。这一范式转变具有重要的概念意义因为它表明世界模型的价值不仅在于能够生成未来的演化轨迹更在于其所生成的轨迹必须具备足够的可靠性从而能够有效地支撑策略评估与动作决策。1 问题设定与研究范畴构建具身世界模型的一条重要途径在于直接在图像或视频空间中对未来进行表征。在此设定下模型依据当前观测、任务规范task specification以及通常包含的一系列候选动作来预测机器人与环境交互过程中的视觉演变。与通用的视频合成任务不同机器人视频生成面临着更为严苛的要求所预测的未来不仅需在视觉上显得逼真可信还必须具备时间连贯性、动作一致性、物理合理性并对下游的决策制定具有实际效用。正因如此机器人视频生成不应被单纯视为一种感知生成问题而应被理解为一种构建视觉显式世界模型的具体机制——该机制旨在为机器人策略学习、规划、评估、仿真及数据生成等任务提供有力支撑。近期在大规模视频生成骨干网络如 CogVideoX方面取得的进展发挥了重要的赋能作用这些研究表明长时序、高保真的时空生成能力是可以通过大规模训练学习的并可随后迁移适配至具身智能场景之中Yang et al., 2024b。本综述将任务指令或语言指令的条件约束conditioning视为一种“高层级动作”的形式。基于这一视角机器人视频生成不仅涵盖受低层级动作驱动的“轨迹推演”rollout过程还包括由文本或任务指令引导的视觉预测——即在低层级控制指令落地执行之前预先指定并呈现出期望实现的未来情景。因此核心问题不再仅仅局限于模型能否生成在视觉上令人信服的未来视频而在于这些未来情景是否具备“可执行性”actionable即它们能否忠实地响应作为条件的动作指令、能否维持符合物理规律的交互动态以及能否被转化为机器人可实际执行的行为序列。在机器人学领域视频世界模型的价值高低取决于它能否以一种有助于优化策略行为的方式准确地捕捉并保留动作的后果、交互的结构以及物理世界的内在规律。秉承这一观点正如图 6 所示将相关文献划分为四个循序渐进的发展阶段将视频生成作为策略学习的“想象力”工具构建具备动作可控性的轨迹推演模型实现融合更丰富交互先验知识的结构感知型生成以及将基础-规模foundation-scale的视频生成骨干网络适配转化为可复用的世界模型。表 2 依据这一以能力为导向的分类体系对各类具有代表性的研究方法进行归纳总结。2 将视频生成作为策略学习的“想象”机制第一类方法主要将视频生成用作策略学习的“想象引擎”。其核心思想在于利用强大的生成先验知识来合成未来的任务执行过程进而将这些“想象”出的未来情境转化为用于机器人控制的监督信号。在此类方法中视频模型的价值并非源于其能够生成视觉效果惊艳的片段而在于它能够将监督信号的覆盖范围拓展至超越已收集的机器人轨迹所构成的狭窄支持域之外。一个密切相关的分支是文本或任务引导的机器人视频生成。在定义中语言可被视为一种高层级动作用于指定应实现何种未来的情景。一个相关但更为明确的视角是将“想象”重新解读为一种可学习的数字孪生。这种“想象”范式也能自然地扩展至合成数据生成及高层级规划领域。当未来的情景生成以任务或语言描述为条件时所生成的视频便可充当高层级的演示替代品或提供与任务相关的合成监督信号。此外它们还能作为视觉规划依据辅助实现长时程的决策制定Du et al., 2024; Chen et al., 2025a。DreamGenJang et al., 2025a系统将强大的视频生成器适配至特定的机器人实体embodiment上借此合成“神经轨迹”并通过隐式动作建模或逆动力学方法从中还原出可执行的机器人动作。该研究的核心主旨在于更为强大的视频世界模型不仅可用于对策略进行正则化约束还能生成合成经验数据从而有效提升下游任务的泛化能力。综上所述这些研究工作确立机器人视频生成技术所扮演的首个核心角色——即充当一种“想象引擎”从而极大地丰富可供策略学习利用的监督信号与规划信号。3 迈向动作可控的视频世界模型第二类方法将重心从“想象式监督”转移到“显式可控性”上。在此核心问题不再是模型能否生成看似合理的未来视频而是其生成的未来情景能否以足够的精度遵从预设的动作序列从而为操纵推理及下游控制任务提供有力支撑。这种重心的转移至关重要因为在具身设置embodied settings的应用场景中如果模型生成的视觉演化过程无法忠实地响应动作干预那么即便其在视觉上显得逼真可信其价值也是十分有限的。总体而言上述研究成果标志着一种决定性的概念转变。对于机器人视频世界模型而言其“保真度”的衡量标准正日益拓展它不仅取决于视觉上的逼真程度更取决于其对动作指令的忠实响应能力、可控的交互特性以及在闭环决策过程中所体现出的实用价值。4 结合交互与几何先验的结构-觉察生成一个密切相关的研究方向旨在通过引入更丰富的交互中间结构来提升可控性。与仅依赖低维动作序列作为条件不同这类方法对掩码、几何信息、视角或身份线索进行编码从而能更好地保留接触关系与场景结构。其背后的直觉在于当模型被要求保留显式的交互结构——而非仅仅合成在视觉上逼真的动作——时机器人视频生成任务将变得更具实用价值。这种“结构-觉察”的视角也将机器人视频世界模型与更广义的结构化及符号化世界建模研究方向联系在一起。上述方法致力于在生成的未来视觉帧中保留结构信息而另一类方法则将世界抽象为谓词、物体关系、功能属性affordances或因果过程并预测这些抽象要素的演变过程以此服务于规划任务Liang et al., 2025c; Athalye et al., 2026; Liang et al., 2026。这些方法并不以提升视觉逼真度为目标相反它们旨在构建更为紧凑且具备组合特性的预测变量从而能更好地契合长时程推理与可执行控制的需求。尽管上述方法在表征形式与研究目标上各具差异但它们遵循着一条共同的原则引入更丰富的结构先验能够使生成的未来情境更具可控性在不同视角与接触关系下保持更高的一致性并最终为下游的具身学习任务提供更具价值的支撑。5 从视频骨干网络到基础世界模型近期的一系列研究重新解读机器人视频世界模型将其视为一种通过适配大规模视频骨干网络而构建的通用交互式预测器。在这一范式下视频生成不再仅仅是一种下游的辅助增强工具它已演变为一种可复用的基础支撑服务于仿真、规划、评估以及大规模机器人数据生产等环节。这些研究预示着该领域正经历一场更为广泛的转型机器人视频生成正日益被视为交互式世界建模的基础层而非一项孤立的生成任务。6 技术演进与开放性挑战综合来看现有文献揭示该领域清晰的技术演进脉络。早期的研究方法如 Dreamitate、Robo-Dreamer、DreMa、ManipDreamer、DreamGen 和 PhysWorld主要将视频生成视为一种“想象”过程旨在为策略学习提供额外的监督信号Liang et al., 2024; Zhou et al., 2024; Barcellona et al., 2025; Li et al., 2025f; Jang et al., 2025a; Mao et al., 2025。随后的第二波研究浪潮包括 IRASim、RoboEnvision、RoboMaster、Ctrl-World、EnerVerse-AC、Interactive World Simulator 和 EVA则将动作对齐、可控演化、交互可用性、可执行性以及评估效用确立为核心研究目标Zhu et al., 2025b; Yang et al., 2025; Fu et al., 2026; Guo et al., 2026b; Jiang et al., 2025c; Wang et al., 2026c,b。与此同时另一条并行研究路线以 Mask2IV、TesserAct 和 RoboVIP 为代表通过引入掩码、几何信息及多视角身份线索构建更为丰富的交互结构Li et al., 2025a; Zhen et al., 2025; Wang et al., 2026a。而最新的系统如 Vid2World、Genie Envisioner、DreamDojo、WoW、ABot-PhysWorld、UnifoLM-WMA-0、Cosmos Predict 2.5 和 GigaWorld-0正日益将机器人视频生成技术提升为一个可复用的基础层从而服务于具身世界建模任务Huang et al., 2026; Liao et al., 2026; Gao et al., 2026a; Chi et al., 2025c; Chen et al., 2026d; Unitree, 2025; Ali et al., 2025; Team et al., 2025b。这一演进过程同时也明确揭示该领域当前面临的核心瓶颈。如今核心挑战已不再仅仅是生成逼真的未来情景。真正的挑战在于生成这样一种未来情景它既在因果关系上与机器人的动作保持一致又在物理和运动学层面于长时域内保持自洽它在不同视角和具身形态之间保持连贯在交互过程中保持稳定且具备足够的“可执行性”足以支撑实际的策略改进。因此对于机器人学而言视频生成的真正价值在于将“未来预测”转化为一种介于感知与决策之间、兼具可控性、交互性与可操作性的接口。应用略基准、数据略挑战和方向略