CVPR 2026 高分论文！ProPhy：让世界模型开始“理解物理”

张

张建站

2026/5/28 12:56:45

10分钟阅读

点击下方卡片关注“CVer”公众号AI/CV重磅干货第一时间送达点击进入—【顶会/顶刊】投稿交流群添加微信号CVer2233小助手拉你进群扫描下方二维码加入CVer学术星球可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料及应用发论文/搞科研/涨薪强烈推荐AI终于学会遵守物理定律了吗ProPhy让世界模型开始“理解物理”当人们谈到“世界模型”World Models时很多人会首先想到近年来迅速发展的生成式视频模型。从通用生成模型Wan到NVIDIA的视频世界模型Cosmos这些模型已经能够生成视觉效果极为逼真、质量极高的动态场景看起来仿佛真实世界的录像。在很多情况下这种能力已经足够令人惊叹模型可以生成海浪拍岸、火焰燃烧、车辆行驶、甚至复杂的人类活动。从视觉角度来看它们似乎已经“学会了”世界的运行方式。然而如果仔细观察这些视频就会发现一个耐人寻味的现象现有的视频生成模型本质上仍然停留在“外观拟合”而非真正的“物理建模”。换句话说它们可以生成“像物理”的画面却未必真正理解• 物体为何运动• 力如何传递• 物理现象应当在何处发生这也引出了一个越来越受到关注的问题生成式视频模型究竟是在“模拟世界”还是仅仅在“模仿世界”为突破这一瓶颈中山大学和MBZUAI等机构联合提出了 ProPhy。该工作构建了一种全新的渐进式物理对齐框架使视频扩散模型首次具备“分层物理理解”与“空间物理对齐”能力——不仅能够判断应当呈现何种物理现象更能够精准定位物理现象应发生在画面的何处。ProPhy 的提出标志着视频生成模型从“视觉逼真”迈向“物理一致”向真正意义上的“世界模拟器”迈出了关键一步。目前该论文已被CVPR2026接近满分接收项目的论文和代码均已开源论文标题ProPhy: Progressive Physical Alignment for Dynamic World Simulation论文链接https://arxiv.org/pdf/2512.05564项目主页https://zijunwa.github.io/prophy/代码链接https://github.com/zijunwa/ProPhy思考:为什么视频模型学不会物理尽管现有模型在视觉逼真度上突飞猛进但在物理一致性方面却屡屡“翻车”。论文指出现有方法存在两个根本性瓶颈:1️⃣缺乏显式的物理建模当前大多数方法依赖隐式学习或仅使用粗粒度的全局物理类别标签进行辅助。这种方式本质上只是让模型“模仿现象”却没有真正形成可区分、可组合的物理先验。换句话说模型或许能生成“像燃烧”“像碰撞”的画面但并未真正理解不同物理规律之间的差异是什么各类物理现象在现实世界中应如何演化。结果是——物理规律在模型内部仍然是模糊、混合且不可分解的。2️⃣缺乏细粒度空间对齐: 真实世界的物理现象往往发生在局部区域火焰在燃烧处、水花在接触点飞溅但模型往往“各向同性”响应缺乏对空间区域的差异化建模无法精准定位物理事件发生的位置。这意味着模型即使“知道”有火也未必能在正确位置燃烧即使“知道”有碰撞也未必遵守动量守恒。ProPhy把“物理专家”植入视频模型不再让模型模糊地“猜物理”而是让不同“物理专家”分别掌握不同物理规律并通过渐进式对齐进行协调两阶段物理专家机制MoPE第一阶段语义物理专家SEBSEB 负责建立对场景整体物理结构的宏观理解。在这一阶段模型首先从文本提示中解析潜在的物理语义信息识别场景中可能涉及的物理现象类型。通过语义路由机制不同的物理专家如燃烧、反射、折射、流体运动等被动态激活并融合为统一的视频级物理先验表示。这一阶段的核心目标是回答一个全局问题“这个视频涉及哪些物理规律”第二阶段细粒度物理专家Refinement Expert Block, REB如果说 SEB 建立的是“物理种类”的认知框架那么 REB 则负责“物理位置”的精确落地。在获得全局物理先验之后模型进一步进入精细化对齐阶段。REB 在 token 级别执行专家路由为每个空间位置动态分配最合适的物理专家使不同区域对不同物理规律产生差异化响应从而实现空间各向异性的物理建模。这一阶段解决的是一个更加关键的问题“物理现象具体发生在画面的哪里”专家知识向 VLM 借“物理感知能力”论文中一个极具启发性的发现是在“物理现象定位”这一能力上Vision-Language Model如 Qwen2.5-VL往往比视频生成模型更精准。换言之生成模型擅长“画出来”但未必擅长“看清楚”。而 VLM 在跨模态理解与空间注意力分布上反而具备更强的物理事件定位能力。基于这一观察作者做了一件相当大胆的尝试——将 VLM 的物理感知能力迁移到生成模型中。具体而言• 利用 VLM 进行物理现象问答例如“视频中燃烧现象发生在哪里”• 提取对应的 attention map• 构建 token 级物理定位信号• 将该信号对齐到生成模型的 Refinement Router这本质上是一种跨模型的物理能力蒸馏与迁移。定量评估在权威物理常识评测基准VideoPhy2上ProPhy 展现出显著优势在 Wan2.1-1.3B 基座模型上• Joint 指标提升 19.7%• Physical CommonsensePC与 Semantic AdherenceSA同步提升这意味着模型在“物理正确性”与“语义一致性”两个维度上同时增强而不是以牺牲语义为代价换取物理分数。在 CogVideoX-5B 上• 多项指标达到 SOTA 或次优水平• 在整体与困难子集HARD上均表现稳定ProPhy 并非针对某一特定架构调优而是具备良好的通用性与可迁移性。在强调视频动态表现能力的VBench评测中• Dynamic Degree 指标显著提升• 综合质量评分同步提高视觉对比ProPhy 带来的不仅是画质的提升更是物理逻辑层面的彻底重构。相比于传统方法中频发的现象触发错位、动量守恒违背或空间穿模ProPhy 在动态表现上展现出了极高的现实一致性动作更严谨无论是掷铁饼时的瞬间扬尘还是球体碰撞的动量传递均清晰可辨交互更自然液体流向不再违背容器结构足球轨迹与落点保持逻辑统一。这标志着模型从追求视觉“形似”向遵循“世界规则”的本质跨越——它生成的不再只是视频而是一个受现实约束的动态世界。更多的定性分析也能够表明ProPhy能够在多个物理领域下生成更加符合物理实际的视频。更深层意义通向“可控物理世界模型”论文中还有一个极具启发性的实验。当研究者人为反转物理专家的路由权重时模型生成的结果发生了戏剧性变化——原本刚性的汽车车门竟然像布料一样随风飘动。这一现象并非偶然的生成失误而是一个强有力的证据不同物理专家模块确实学习到了彼此区分的物理先验。换句话说模型内部已经形成了结构化、可分解的物理知识表示。当我们干预专家选择时等于直接操控了物理规则本身。这不只是一次性能优化而是一次能力边界的拓展——视频生成模型第一次展现出向“可控物理世界模型”演化的潜力。未来这种结构化物理建模方式可能带来一系列全新的能力•可控物理属性编辑: 让刚体变柔性让流体变黏稠直接操控物体的物理属性。•物理规律迁移: 将某种物理行为模式迁移到新的场景或对象上实现跨场景物理泛化。•物理参数调节: 调整重力强度、碰撞弹性、流体阻力等隐含参数实现“物理可编程生成”。•可解释物理建模: 通过专家激活模式理解模型内部“相信”的物理规律提升透明度与可分析性。总结从“看起来真实”到“运行真实”ProPhy 的意义并不只在于一次性能提升或一个新模块设计。它真正推动的是视频生成范式的转变——从依赖数据统计规律的视觉拟合走向具备结构化物理建模能力的动态推演。通过分层物理专家机制与细粒度空间对齐策略ProPhy 让模型第一次同时回答两个关键问题“涉及哪些物理规律”以及“这些规律发生在何处”更重要的是它借助 VLM 的空间感知能力将物理定位能力迁移到生成过程之中使视频生成不再只是外观一致而是逐步具备物理一致性。这意味着视频模型正在从“像世界”迈向“遵循世界”。展望下一代可推演的世界模型当然ProPhy 仍然只是一个开始。当前的物理建模仍基于类别与注意力对齐未来或许可以进一步引入连续动力学建模、微分方程约束甚至将物理引擎与生成模型深度融合使模型具备更可解释、可控制的物理推演能力。当视频生成真正理解力、能量与守恒定律当物理规律成为生成过程的内在约束我们或许将迎来一种全新的 AI 形态——不仅能够生成世界的表象更能够模拟世界的运行。那时视频模型将不再只是创作工具而是真正意义上的“可学习世界模拟器”。论文第一作者中山大学一年级博士生王子俊和穆罕默德·本·扎耶德人工智能大学MBZUAI胡攀文博士研究方向为视频生成和世界模型通讯作者为中山大学智能工程学院梁小丹教授和黎汉汇教授。本文系学术转载如有侵权请联系CVer小助手删文何恺明在MIT授课的课件PPT下载在CVer公众号后台回复何恺明即可下载566页课件PPT大家赶紧学起来CVPR 2026 所有论文和代码下载在CVer公众号后台回复CVPR2026即可下载CVPR 2026 所有论文和代码CV垂直方向和论文投稿交流群成立扫描下方二维码或者添加微信号CVer2233即可添加CVer小助手微信便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖目标检测、图像分割、目标跟踪、人脸检测识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。一定要备注研究方向地点学校/公司昵称如Mamba、多模态学习或者论文投稿上海上交卡卡根据格式备注可更快被通过且邀请进群▲扫码或加微信号: CVer2233进交流群 CVer计算机视觉知识星球人数破万如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料一定要扫描下方二维码加入CVer知识星球最强助力你的科研和工作 ▲扫码加入星球学习▲点击上方卡片关注CVer公众号整理不易请点赞和在看

从学习到实战：用快马ai生成企业级java博客项目，打通知识应用最后一公里

今天想和大家分享一个特别实用的Java学习实战经验——如何用InsCode(快马)平台快速搭建一个企业级Java博客系统。这个项目完美覆盖了Java学习路线中的核心知识点，从基础框架到生产级功能一应俱全，特别适合想要通过实战巩固技能的朋友。项目整体设计思路…...

2026/5/8 18:28:11 阅读更多 →

终极解决方案：如何用G-Helper一键恢复ROG游戏本色彩配置文件

终极解决方案：如何用G-Helper一键恢复ROG游戏本色彩配置文件【免费下载链接】g-helper Lightweight Armoury Crate alternative for Asus laptops. Control tool for ROG Zephyrus G14, G15, G16, M16, Flow X13, Flow X16, TUF, Strix, Scar and other models 项…...

2026/5/8 18:28:12 阅读更多 →

动漫迷狂喜！用AI一键生成你的专属动漫BGM（详细版）

为什么动漫BGM如此重要？你是否曾为这些场景心动？《鬼灭之刃》炭治郎挥刀的瞬间，BGM燃到头皮发麻《夏目友人帐》猫咪老师出现时，温暖治愈的旋律《你的名字》彗星划过夜空，空灵钢琴声让人泪目《进击的巨人》兵长砍猴名场…...

2026/5/8 18:28:13 阅读更多 →

【限时解密】Claude 3.5 Sonnet专属编程模式：仅开放给前500家企业的上下文感知补全协议

更多请点击： https://kaifayun.com 第一章：Claude 3.5 Sonnet编程辅助的核心能力边界与适用场景 Claude 3.5 Sonnet 在编程辅助领域展现出显著的推理深度与上下文理解能力，但其本质仍是基于大规模语言模型的生成式系统，不具备实时…...

2026/5/27 12:43:11 阅读更多 →

RMAN 增量备份（Incremental Backup）

1、概念RMAN 增量备份是指 RMAN 只备份自上次备份以来发生过更改的数据块，而不是备份整个数据库的所有数据块。它是 Oracle 为解决大型数据库全量备份时间长、占用空间大的问题而设计的核心特性，也是现代企业级备份策略的基础。简单类比：全库…...

2026/5/27 0:57:50 阅读更多 →

终极指南：掌握ProperTree跨平台Plist编辑器的10个高效技巧

终极指南：掌握ProperTree跨平台Plist编辑器的10个高效技巧【免费下载链接】ProperTree Cross platform GUI plist editor written in python. 项目地址: https://gitcode.com/gh_mirrors/pr/ProperTree 想要轻松编辑macOS和iOS的配置文件却苦于复杂的XML语法…...

2026/5/27 16:46:38 阅读更多 →

ScriptHookV解决方案：如何安全扩展GTA V游戏功能而不修改原始文件

ScriptHookV解决方案：如何安全扩展GTA V游戏功能而不修改原始文件【免费下载链接】ScriptHookV An open source hook into GTAV for loading offline mods 项目地址: https://gitcode.com/gh_mirrors/sc/ScriptHookV ScriptHookV是一个专为《侠盗猎车手V》&…...

2026/5/27 17:17:05 阅读更多 →