2025_NIPS_iVideoGPT: Interactive VideoGPTs are Scalable World Models

张

张建站

2026/4/29 10:18:22

10分钟阅读

2025_NIPS_iVideoGPT: Interactive VideoGPTs are Scalable World Models

文章核心内容与创新点总结核心内容iVideoGPT 是一款基于自回归Transformer的可扩展世界模型，通过融合视觉观测、动作、奖励等多模态信号，实现交互式环境模拟。其核心是先在百万级人类与机器人操作轨迹上预训练，再针对下游任务（动作条件视频预测、视觉规划、基于模型的强化学习）微调，最终在多个基准测试中取得与现有最优方法相当的性能，填补了生成视频模型与实际强化学习应用之间的差距。核心创新点压缩令牌化技术：设计条件VQGAN，基于初始上下文帧对未来帧进行令牌化，将令牌序列长度渐近减少16倍，兼顾训练效率与视频时序一致性。交互式自回归架构：通过插槽令牌整合多模态信号，支持无动作预训练与动作条件微调，同时实现模型的可扩展性与步骤级交互性。预训练-微调范式：在大规模跨数据集上预训练，形成通用世界模型基础，可快速适配不同下游任务，甚至零样本迁移至未见过的机器人类型（仅需适配令牌器）。简化的模型基强化学习：将iVideoGPT作为环境替代器，与MBPO算法结合，无需 latent imagination 即可实现高效视觉连续控制，简化了传统模型基强化学习的设计复杂度。英文原文与中文翻译（Markdown格式）Abstract

如何用思源宋体CN解决7大设计难题：3步快速美化你的项目

如何用思源宋体CN解决7大设计难题：3步快速美化你的项目【免费下载链接】source-han-serif-ttf Source Han Serif TTF 项目地址: https://gitcode.com/gh_mirrors/so/source-han-serif-ttf 还在为中文排版效果不佳而烦恼吗？思源宋体CN这款由Adobe…...

2026/4/29 10:14:25 阅读更多 →

别再死记硬背公式了！用PyTorch从零实现Bounding Box Regression，带你彻底搞懂RCNN的定位微调

从零实现Bounding Box Regression：用PyTorch拆解目标检测的核心模块在目标检测任务中，Bounding Box Regression（边界框回归）是提升定位精度的关键步骤。很多教程会直接抛出公式让你记忆，但真正理解其设计原理和实现细…...

2026/4/29 10:11:24 阅读更多 →

二刷hot100-160.相交链表

非常巧妙，先让指针分别循环两个链表，到结尾时在2指向对方链表继续循环，当指针指向同一结点，就是相交节点；/*** Definition for singly-linked list.* public class ListNode {* int val;* ListNode next;* …...

2026/4/29 10:10:22 阅读更多 →

抖音批量下载工具解决方案：高效去水印、支持视频图集合集音乐免费下载

抖音批量下载工具解决方案：高效去水印、支持视频图集合集音乐免费下载【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser…...

2026/4/27 6:27:19 阅读更多 →