ICLR 2026 Oral | FlashVID：视频大模型高效推理新框架

张

张建站

2026/7/11 16:47:51

10分钟阅读

点击下方卡片关注“CVer”公众号AI/CV重磅干货第一时间送达点击进入—【顶刊】投稿交流群添加微信号CVer2233小助手拉你进群扫描下方二维码加入CVer学术星球可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料及应用发论文/搞科研/涨薪强烈推荐当前视频大模型VLLM需要处理大量的视觉 Tokens例如LLaVA-OneVision、LLaVA-Video 需要处理的视觉 token 序列长度分别为 32 x 196 6272、64 x (169 1) 10,880因此推理效率特别低。一个主流的高效推理方案是视觉 Token 压缩利用视觉信息内在的冗余度进行 Token 挑选或合并保留关键的视觉信息在加速的同时尽可能保持模型原有的性能。然而现有的加速框架通常没有考虑视频的动态性通常将时间冗余度限制在固定的空间位置如 PruneVID由于视频的动态性质相同的视觉元素会随着时间的演进经历大小、方向、属性上的变化因此导致时空冗余压缩效果不佳。为了解决这个问题我们提出了 FlashVID核心在于树形时空冗余压缩模块TSTM基于相邻帧的视觉特征相似性建立时空冗余树同时对视频的时间和空间冗余进行建模然后将每棵冗余树合并为单个 token 表示完成 Inter-frame Token 合并为了防止合并信息量丰富的视觉 Tokens在时空冗余压缩前我们使用基于注意力和多样性的 Token 挑选方法ADTS完成 Intra-frame Token 挑选。FlashVID 将 ADTS 和 TSTM 有机结合取得了极好的性能。FlashVID 的优势在于极好的性能以及通用性。作者在 5 个主流视频理解数据集VideoMME、EgoSchema、LongVideoBench、MVBench、MLVU和 3 个代表性视频大模型LLaVA-OneVision、LLaVA-Video、Qwen2.5-VL以及不同的 Token 保留率上进行了大量实验结果表明FlashVID 取得了SoTA 性能在所有设定中均远超现有 SoTA 加速框架FastV、VisionZip、PruneVID、FastVID特别地在 LLaVA-OneVision 上仅保留 10% 视觉 TokensFlashVID 保留了模型99.1%的性能并取得6.3x预填充、2.1xTime-To-First-TokenTTFT加速。除此之外FlashVID 可作为一个即插即用的模块在相同计算预算下使视频大模型处理更多的视频帧例如FlashVID 可以使得 Qwen2.5-VL 处理10x视频帧相对性能提升 **8.6%**。论文标题 FlashVID: Efficient Video Large Language Models via Training-free Tree-based Spatiotemporal Token Merging作者团队Ziyang Fan, Keyu Chen, Ruilong Xing, Yulin Li, Li Jiang, Zhuotao Tian机构哈尔滨工业大学深圳香港中文大学深圳深圳河套学院论文地址https://arxiv.org/abs/2602.08024代码地址https://github.com/Fanziyang-v/FlashVID研究背景时空冗余压缩的困境现有视频大模型加速框架如 PruneVID通常将时间和空间冗余独立进行压缩忽略了视频内在的时空关联性导致性能下降此外现有方法TTM通常将时间冗余度限制于相同的空间位置上然而由于视频的动态性相同的视觉元素会随着时间演进在空间位置、大小、外观、属性产生变化因此这种严格的空间位置限制条件是不可靠的。如上图所示(a) 表示在相同合并阈值下使用 TSTM 和 TTM 合并的视觉 Tokens 数量变化曲线由于 TSTM 没有严格的空间位置限制可以灵活地捕捉时空关联合并的视觉 Tokens 特征相似度显著高于 TTM说明了 TSTM 时空冗余压缩的有效性。此外(b) 和 (c) 展示了 TTM 和 TSTM 的 Token 合并模式对比TTM 在合并是可能会引入非相关的视觉信息影响最终的视频表征因此压缩性能不佳。FlashVID结合 ADTS 和 TSTM实现极致压缩TSTM树形时空冗余压缩视频展现出在空间位置、大小、外观等方面的动态性使时空冗余压缩存在显著挑战为了解决这个问题我们提出树形时空冗余压缩机制TSTM将视频冗余建模为时空冗余树。构造时空冗余树给定视频特征TSTM 渐进式构建时空冗余树基于计算相邻帧的特征相似度矩阵以及一个预定义的合并阈值每个 Token 与前一帧特征最相似的 token 连接逐步构建得到时空冗余树有效捕捉了细粒度的时间变化避免合并不相似的 tokens。压缩时空冗余度TSTM 将每棵时空冗余树压缩为一个 token 表示平均树上所有视觉特征并保留于根节点。ADTS基于注意力和多样性的 Token 挑选尽管 TSTM 能有效压缩视频的时空冗余度但是可能会导致视觉信息丰富的视觉 tokens 丢失。为了缓解这个问题我们进一步引入基于注意力和多样性的 Token 挑选方法识别时空中信息量丰富的 tokens同时确保视觉特征的多样性。具体来说我们将 token 挑选方法视为最大最小多样性问题Max-Min Diversity ProblemMMDP首先计算逐帧余弦距离矩阵[CLS] 注意力矫正我们使用视觉编码器的 [CLS] 注意力对于没有显式的 [CLS] token 编码器如 SigLIP从其注意力矩阵中推导为每个 token 获取到其他 tokens 的注意力平均值[CLS] 注意力矫正项关注与每个帧的 in。事件相关度矫正为了识别与当前视频事件最相关的 tokens我们引入事件相关度矫正项首先计算然后计算事件相似度矩阵最后时空中信息丰富的 tokens 通过 MMDP 问题求解如算法 1 所示FlashVID 首先使用 ADTS 模块挑选出每帧信息丰富的视觉 tokens然后使用 TSTM 模块进行时空冗余压缩。实验结果全面领先的 Training-free 加速框架FlashVID 在 5 个主流视频理解数据集以及 3 个代表性的视频大模型以及 4 种不同的 token 保留率上进行评估并取得了 SOTA 性能。LLaVA-OneVision 和 LLaVA-Video在 VideoMME、EgoSchema、LongVideoBench、MVBench 数据集上FlashVID 在4 种不同的 Token 保留率一致取得 SOTA 性能特别地在 LLaVA-OneVision 上的 15%、20%、25% 保留率上平均性能超过原始模型100% 保留率在 10% 保留率下仍然保持 99.1% 的性能。类似地在 LLaVA- Video 上也取得了 SOTA 性能。Qwen2.5-VL为了证明 FlashVID 的泛化性研究者在与 LLaVA 系列模型有显著区别的 Qwen2.5-VL 上进行了实验实验表明FlashVID 一致取得了 SOTA 性能。Qwen2.5-VL研究者还探索了在固定计算量的条件下结合视觉 Token 压缩框架使视频大模型的处理更多的视频帧数结果表明FlashVID 可以使得 Qwen2.5-VL 处理10x视频帧相对性能提升 **8.6%**。效率实验在 LLaVA-OneVision 64 帧的设定下研究者在 VideoMME 数据集上进行了效率实验FlashVID 在 10% 的保留率下使 LLaVA-OneVision 取得6.3x预填充加速、2.1xTime-To-First-TokenTTFT加速相对于 FastVID 而言FastVID 在相似的性能下98.5% 取得了4.0x预填充加速、1.8xTTFT 加速证明了 FlashVID 可以实现视频大模型的高效推理。总结与价值研究者通过对视频大模型时空冗余压缩的观察发现现有加速框架没有考虑时空关联性并且通常将时间冗余度限制于相同的空间位置导致性能下降为了解决这个问题提出了一种新颖的视频大模型加速框架 FlashVID并取得了极好的压缩性能以及推理效率。论文的贡献可以总结为揭示现有加速方法的时空冗余压缩的局限性即没有考虑时空关联性以及时间冗余度限制于相同的空间位置。提出了 FlashVID 框架有机结合帧内 token 挑选方法 ADTS 和帧间时空冗余压缩机制 TSTM提供了紧密且信息量丰富的视频特征表示。极好的效率和性能在主流的视频理解数据集、不同视频大模型上取得了一致超过现有 SOTA 加速方法同时能够在计算资源受限的条件下处理更多的视频帧数提升视频大模型的性能。本文系学术转载如有侵权请联系CVer小助手删文何恺明在MIT授课的课件PPT下载在CVer公众号后台回复何恺明即可下载566页课件PPT大家赶紧学起来CVPR 2026 所有论文和代码下载在CVer公众号后台回复CVPR2026即可下载CVPR 2026 所有论文和代码CV垂直方向和论文投稿交流群成立扫描下方二维码或者添加微信号CVer2233即可添加CVer小助手微信便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖目标检测、图像分割、目标跟踪、人脸检测识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。一定要备注研究方向地点学校/公司昵称如Mamba、多模态学习或者论文投稿上海上交卡卡根据格式备注可更快被通过且邀请进群▲扫码或加微信号: CVer2233进交流群 CVer计算机视觉知识星球人数破万如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料一定要扫描下方二维码加入CVer知识星球最强助力你的科研和工作 ▲扫码加入星球学习▲点击上方卡片关注CVer公众号整理不易请点赞和在看

AI图像增强工具完整教程：用Real-ESRGAN-ncnn-vulkan让模糊照片重获新生

AI图像增强工具完整教程：用Real-ESRGAN-ncnn-vulkan让模糊照片重获新生【免费下载链接】Real-ESRGAN-ncnn-vulkan NCNN implementation of Real-ESRGAN. Real-ESRGAN aims at developing Practical Algorithms for General Image Restoration. 项目地址: https:/…...

2026/7/7 18:09:00 阅读更多 →

3步轻松掌握：no-defender实用指南，安全关闭Windows Defender防火墙

3步轻松掌握：no-defender实用指南，安全关闭Windows Defender防火墙【免费下载链接】no-defender A slightly more fun way to disable windows defender firewall. (through the WSC api) 项目地址: https://gitcode.com/GitHub_Trending/no/no-defe…...

2026/7/8 20:56:16 阅读更多 →

VS2019实现多品牌CAN盒兼容上位机开发实战

1. CAN上位机开发基础认知第一次接触CAN盒开发的朋友可能会被各种专业术语吓到，其实用生活化的方式理解就简单多了。想象一下CAN盒就像个翻译官，它负责把CAN总线上的"外语"（电信号）翻译成电脑能听懂的"普通话&quo…...

2026/5/17 18:19:55 阅读更多 →

基于Python的人脸识别课堂考勤系统设计与实现

1. 项目背景与核心价值在大学计算机相关专业的毕业设计中，一个既能体现技术深度又具备实用价值的选题往往能获得更高评价。基于人脸识别的课堂考勤管理系统正是这样一个集Python编程、计算机视觉、数据库管理于一体的综合性项目。这个系统的核心价值在于解决了传统考…...

2026/7/9 23:38:25 阅读更多 →

Claude 3系列模型真相：Opus 4.7和Sonnet 4.6并不存在

我注意到您提供的项目标题涉及的是一个虚构或错误的技术发布信息。目前（截至2024年中），Anthropic 公司并未发布过名为 “Claude Opus 4.7”、“Sonnet 4.6” 或 “Opus 4.6” 的模型版本。Anthropic 官方公开发布的 Claude 系列模型仅有以下稳…...

2026/7/11 13:39:19 阅读更多 →

游戏自动化技术赋能暗黑破坏神3：从手动操作到智能工作流的技术革命解决方案

游戏自动化技术赋能暗黑破坏神3：从手动操作到智能工作流的技术革命解决方案【免费下载链接】D3keyHelper D3KeyHelper是一个有图形界面，可自定义配置的暗黑3鼠标宏工具。项目地址: https://gitcode.com/gh_mirrors/d3/D3keyHelper 在暗黑破坏神…...

2026/7/9 23:38:01 阅读更多 →

让经典游戏重获新生：IPXWrapper解决Windows联机难题的完整方案

让经典游戏重获新生：IPXWrapper解决Windows联机难题的完整方案【免费下载链接】ipxwrapper 项目地址: https://gitcode.com/gh_mirrors/ip/ipxwrapper 还记得那些年，你和朋友们聚在一起玩《红色警戒2》、《星际争霸》或《魔兽争霸2》的快乐时光…...

2026/7/9 23:39:44 阅读更多 →