最新 AI 论文盘点2026-04-164 篇新作看长视频压缩、预训练空间强化学习、具身操作分层控制与蒸馏中的关键 token今天这批论文有个很明显的共同点它们都不是在单纯追求“再大一点的模型”而是在处理系统真正卡住的瓶颈。比如长视频进 VLM 时上下文根本放不下推理强化学习很容易被当前模型分布卡死端到端 VLA 一微调就把原本的视觉推理能力磨掉on-policy distillation 里大量 token 其实并不值得同等训练成本。这些问题都很工程不花哨但每一个都直接决定系统能不能继续往上走。今天我挑 4 篇 2026-04-16 挂到 arXiv 的新论文来盘覆盖长视频理解、LLM 强化学习、具身智能和模型蒸馏四条线。相比“哪个榜单又涨了 1 个点”这几篇更值得看的是它们都在认真回答“资源到底花在哪里最值”。今天挑的 4 篇论文One Token per Highly Selective Frame长视频理解怎么把 token 压到极限同时别把时序信息压没PreRL / DSRL强化学习不只优化 (P(y|x))还能不能直接改写预训练空间里的 (P(y))HiVLA为什么具身操作不该把高层规划和底层动作硬绑在一个模型里TIPon-policy distillation 里哪些 token 真正最值得学1One Token per Highly Selective Frame长视频理解先把 token 预算这件事算明白arXiv2604.14149标题One Token per Highly Selective Frame: Towards Extreme Compression for Long Video Understanding方向视频理解 / VLM / 长上下文压缩长视频理解这条线现在有个非常现实的问题不是模型“看不懂”而是根本“看不过来”。一段长视频如果按常规方式送进视觉语言模型每帧会展开成几十到上百个视觉 token。视频一长LLM 上下文立刻爆掉。很多系统只能做稀疏采样于是细粒度时序线索在前面就已经丢了。这篇论文的核心思路是把视频压缩做到非常激进目标是每帧最终只保留 1 个 token但压缩过程不能是拍脑袋选 token而要让模型自己学会压。第一层token-level compression他们提出 LP-Comp把 LLM 层里的压缩做成可学习、渐进式模块而不是手工规则裁剪。直观理解就是不是先在视觉编码器侧粗暴砍掉大量 patch而是在更靠近语言建模的层里让模型逐步学会哪些信息应该留下这么做的好处是压缩决策和最终任务目标绑定得更紧不容易出现“省了 token但把回答真正依赖的信息一起省掉”的情况。第二层frame-level compression只有每帧压缩还不够因为真正长视频的麻烦往往是“帧太多”。所以他们又做了 query-aware 的帧选择即 QC-Comp利用 LLM 内部 attention 分数选出对当前问题最相关的帧不是平均对待所有时间位置作者还专门处理了长上下文里常见的 position bias也就是模型更偏向序列开头和结尾、忽略中间内容的问题。方法是把长视频切成短 segment再做局部 attention避免注意力天然向两端塌缩。为什么这篇论文值得看这篇工作的价值不只是“压得更狠”。更重要的是它把长视频理解的资源分配问题拆成了两个层面每帧内部哪些 token 值得保留整段视频里哪些帧值得保留这比只做一种统一压缩更接近真实系统需求。结果怎么看论文里给出的一个关键结果是仅用原监督微调数据的2.5%做 supervised compression tuningLVBench 准确率从42.9%提到46.2%同时能处理2x-4x 更多帧这个结果说明了一件事长视频性能瓶颈不一定是基座模型不够强很可能是 token 预算没有分配好。适用场景视频问答长视频检索监控/会议/教学录像理解需要在有限上下文里保留更多时间细节的 VLM 系统局限这类方法很依赖“问题相关帧”确实能被内部注意力较早识别出来对完全开放式、多跳时序推理任务过强压缩仍可能漏掉后续需要的上下文2PreRL / DSRL强化学习不只改 (P(y|x))还能先修 (P(y))arXiv2604.14142标题From (P(y|x)) to (P(y)): Investigating Reinforcement Learning in Pre-train Space方向LLM / 推理强化学习 / post-training这篇论文很有意思因为它不是在现有 RLVR 框架里微调技巧而是直接质疑优化对象本身。现在大模型推理强化学习通常优化的是条件分布P(y∣x) P(y\mid x)P(y∣x)其中(x) 表示输入问题(y) 表示模型生成的回答或推理轨迹这种做法当然有效但作者指出一个天花板如果基础模型本身在预训练阶段形成的输出空间就偏了只靠在条件分布上做 RL能改的范围仍然受限。所以他们尝试把强化学习往前挪直接作用在预训练空间的边缘分布P(y) P(y)P(y)直觉上这相当于不只是教模型“看到这个题时怎么答”而是先调整“模型总体更倾向生成什么样的思维模式与推理轨迹”。论文的关键点 1证明 (\log P(y)) 和 (\log P(y\mid x)) 的梯度有较强对齐这是这篇论文最重要的理论支撑。如果预训练空间里的更新方向和标准 RL 的更新方向完全不一致那这件事就站不住。作者给出的结论是在理论和实验上二者存在显著梯度对齐所以在预训练空间上做 reward-driven online update 是可行的 surrogate论文的关键点 2Negative Sample ReinforcementNSR特别有效作者发现在 PreRL 里负样本强化反而很关键。也就是不只是奖励正确轨迹还要主动强化“剪掉错误推理空间”这件事。文中提到NSR-PreRL 会显著增加模型的 transition thoughts 和 reflection thoughts分别提升14.89x6.54x这说明它不只是让模型少犯错而是在改变模型内部的推理展开方式。论文的关键点 3提出 Dual Space RLDSRL完整训练流程不是只做 PreRL而是两段式先用 NSR-PreRL 在预训练空间里扩展/修正推理搜索边界再切回标准 RL在条件分布上做精修这个设计很像先做粗粒度策略重塑再做任务条件下的细粒度对齐。为什么这篇论文值得看它真正切中的问题是当 RLVR 越来越卷实现细节时我们可能忽略了更上游的约束——基础模型原本就允许你走到哪些推理区域。如果这个问题成立那么很多“RL 再怎么调也就这样”的现象就不一定是 reward 不够好而是底层分布没被动到。适用场景LLM 推理增强数学/代码/可验证任务的 post-training希望把 RL 从局部修补推进到更广策略重塑的训练管线局限这条路线需要在线更新预训练空间训练成本和稳定性门槛不低对开放式任务的泛化边界、以及对非推理能力的副作用还需要更多实验3HiVLA具身操作系统里高层理解和低层控制最好别硬绑死arXiv2604.14125标题HiVLA: A Visual-Grounded-Centric Hierarchical Embodied Manipulation System方向具身智能 / VLA / 机器人操作Vision-Language-Action 这两年很热但端到端路线有个很难绕开的矛盾你想让模型直接从图像、语言到动作一把梭很优雅但一旦拿窄域控制数据去微调原来 VLM 里那部分还不错的语义推理能力经常会被一起磨掉。HiVLA 的核心判断很直接高层语义规划和低层动作执行本来就不应该由同一套表示在同一个尺度上硬撑。所以它把系统拆成两层。高层VLM planner 做任务分解 visual grounding高层模块输出的不是直接动作而是结构化计划当前子任务指令目标物体的精确 bounding box这一步很关键因为它让“看懂场景”“决定下一步做什么”和“具体机械臂怎么走”分开了。低层DiT action expert 专门负责执行低层动作专家使用 flow-matching Diffusion Transformer并用 cascaded cross-attention 依次融合全局场景上下文高分辨率目标裁剪区域技能语义信息这个设计很工程化也很合理。因为精细操作尤其是 cluttered scene 下抓小物体最怕的就是全局信息不够动作没有任务上下文局部信息不够末端控制又不准HiVLA 的 cascaded cross-attention 本质上是在解决“先知道大局再盯住目标再结合技能”的信息流顺序问题。为什么这篇论文值得看它不是简单说“hierarchical 更好”而是把具身系统里两个经常互相伤害的目标明确拆开了保住 VLM 的零样本推理与泛化能力让动作模块只为稳定执行负责这比把所有能力压进一个统一策略里更符合工程常识。适用场景长时序具身任务小目标、杂乱场景操作需要同时保留任务理解能力和高精度执行能力的机器人系统局限分层系统通常会引入接口误差高层 grounding 一旦偏了低层再强也会执行错对象真机部署时感知延迟与动作闭环鲁棒性仍然是关键挑战4TIP蒸馏时不是所有 token 都一样值钱真正该学的是“犹豫的”和“自信但错的”arXiv2604.14084标题TIP: Token Importance in On-Policy Distillation方向模型蒸馏 / LLM 训练效率 / token selection这篇论文讨论的是一个很容易被忽略但非常实用的问题在 on-policy distillation 里学生模型会在自己的 rollout 上学习教师的 token 级监督。默认做法通常是所有 token 都训练。但这其实很浪费。因为并不是每一个 token 位置都提供同等强度的学习信号。作者提出了一个很清楚的判断框架真正有价值的 token 主要来自两类区域。第一类高熵 token也就是学生模型本身不确定的位置。如果把学生在位置 (t) 的预测分布记作 (p_t)那么其熵为H(pt)−∑ipt(i)log⁡pt(i) H(p_t)-\sum_i p_t(i)\log p_t(i)H(pt​)−i∑​pt​(i)logpt​(i)其中(p_t(i)) 表示第 (t) 个位置生成词表中第 (i) 个 token 的概率(H(p_t)) 越高说明学生越拿不准这类位置天然适合学习因为学生自己已经暴露出“我不会”。第二类低熵但高分歧 token更有意思的是第二类学生看起来很自信但和老师差得很远。这可以用 teacher-student divergence 来描述比如 KL 散度DKL(qt∥pt)∑iqt(i)log⁡qt(i)pt(i) D_{\mathrm{KL}}(q_t\parallel p_t)\sum_i q_t(i)\log \frac{q_t(i)}{p_t(i)}DKL​(qt​∥pt​)i∑​qt​(i)logpt​(i)qt​(i)​其中(q_t) 是教师在位置 (t) 的分布(p_t) 是学生在位置 (t) 的分布散度越大说明学生虽然自信但自信错了这类 token 之所以重要是因为它们携带的是高密度纠错信号。TIP 的核心结论作者把 token 按“学生熵”和“师生分歧”两条轴组织成 taxonomy得到一个很实用的训练认识只用熵做筛选已经是很强的一阶近似但只看熵不够因为会漏掉“低熵高分歧”的关键错误 token实验结果挺硬用熵采样保留50%token效果可匹配甚至超过全 token 训练同时峰值显存下降47%只训练不到10%的“低熵高分歧” token已经能逼近 full-token baseline在 DeepPlanning 上仅训练20%token 的特定区域甚至超过 full-token OPD为什么这篇论文值得看因为它给的是非常可落地的结论。如果你在做资源受限下的蒸馏论文给出的不是模糊建议而是一个直接可编码的策略先算学生熵再补教师分歧优先训练真正有学习价值的位置这对显存、吞吐、训练预算都是真金白银的收益。适用场景LLM 蒸馏on-policy self-improvement受 GPU 预算约束的 teacher-student 训练局限依赖教师分布时需要额外前向成本token 重要性是否能稳定迁移到多语言、代码、工具调用等场景还要继续验证今天这 4 篇放在一起最值得记住什么如果只用一句话概括我会说好系统不是“把所有信息都吃进去”而是更准确地决定哪些信息该保留、在哪个空间里优化、以及哪一层该负责什么。这 4 篇论文分别在解决不同层面的资源错配长视频理解里token 和帧预算怎么分推理强化学习里优化该发生在条件分布还是更上游的预训练空间具身系统里语义规划和动作执行怎么拆模型蒸馏里训练预算到底该砸在哪些 token 上它们背后的共同趋势是研究越来越少迷信统一大模型包打天下越来越重视模块边界、优化对象和资源分配。如果你现在在做系统今天最值得优先跟哪几篇做视频理解 / VLM优先看One Token per Highly Selective Frame做 reasoning RL优先看PreRL / DSRL做机器人 / 具身操作优先看HiVLA做蒸馏 / 降本训练优先看TIP如果只能先精读两篇我会优先推荐PreRL / DSRL因为它在动 post-training 的优化对象本身TIP因为它最容易直接变成训练系统里的收益小结今天这批论文给人的感觉不是“又来了几个新 benchmark”而是大家开始更认真地处理系统真正贵、真正慢、真正容易失真的地方。这很重要。因为下一阶段很多模型能力的提升未必来自更大的参数量而更可能来自对这些资源瓶颈的重新拆解。参考链接arXiv:2604.14149 — https://arxiv.org/abs/2604.14149arXiv:2604.14142 — https://arxiv.org/abs/2604.14142arXiv:2604.14125 — https://arxiv.org/abs/2604.14125arXiv:2604.14084 — https://arxiv.org/abs/2604.14084