文章核心内容与创新点总结核心内容iVideoGPT 是一款基于自回归Transformer的可扩展世界模型,通过融合视觉观测、动作、奖励等多模态信号,实现交互式环境模拟。其核心是先在百万级人类与机器人操作轨迹上预训练,再针对下游任务(动作条件视频预测、视觉规划、基于模型的强化学习)微调,最终在多个基准测试中取得与现有最优方法相当的性能,填补了生成视频模型与实际强化学习应用之间的差距。核心创新点压缩令牌化技术:设计条件VQGAN,基于初始上下文帧对未来帧进行令牌化,将令牌序列长度渐近减少16倍,兼顾训练效率与视频时序一致性。交互式自回归架构:通过插槽令牌整合多模态信号,支持无动作预训练与动作条件微调,同时实现模型的可扩展性与步骤级交互性。预训练-微调范式:在大规模跨数据集上预训练,形成通用世界模型基础,可快速适配不同下游任务,甚至零样本迁移至未见过的机器人类型(仅需适配令牌器)。简化的模型基强化学习:将iVideoGPT作为环境替代器,与MBPO算法结合,无需 latent imagination 即可实现高效视觉连续控制,简化了传统模型基强化学习的设计复杂度。英文原文与中文翻译(Markdown格式)Abstract