Anomaly Detection系列(CVPR2025 EG-MPC论文解读)
Noise-Resistant Video Anomaly Detection via RGB Error-Guided Multiscale Predictive Coding and Dynamic Memory无监督视频异常检测旨在仅从正常样本中学习模式从而识别测试阶段中的异常事件。当前方法面临三大核心挑战依赖静态背景假设现有方法易受复杂背景噪声干扰在非均匀光照或动态背景下误检率高。缺乏对多样正常模式的有效建模多数方法仅在训练时更新记忆项忽略了测试集中也存在可参考的正常行为。难以区分局部异常与全局噪声小尺度异常区域常被背景误差掩盖导致漏报和误报。图1.不同方法帧重建RGB误差图的可视化结果从上至下依次为HSC[40]、 MGSTRL [51]及本研究方法。从左至右依次展示(a)ShanghaiTech [26]的正常数据与(b)Avenue[25]的异常数据、(c)ShanghaiTech 及(d)UCF-Crime[38]数据的RGB误差图。误差图中数值表示与真实值的均方误差。最佳效果请以彩色模式查看。本文提出一种结合下一帧预测与预测帧重建的任务框架引入RGB误差引导的多尺度预测编码EG-MPC与动态记忆模块DMM在四个基准数据集上实现SOTA性能尤其在上海科技城数据集上AUROC达86.0%超越最先进方法0.9个百分点。核心贡献本文核心贡献如下首个融合RGB误差空间预测与动态记忆重建的双任务框架解决了传统方法对背景噪声敏感的问题挑战1在上海Tech上AUROC86.0%。提出RGB误差引导的多尺度预测编码架构通过通道与空间注意力机制增强前景物体特征提取能力挑战1相比纯ConvLSTM基线提升Δ至0.349。设计动态记忆模块及其稀疏聚合与选择性更新策略有效放大异常帧重构误差挑战2并在测试阶段持续优化记忆库表达力挑战2使Avenue Δ提高到0.431。首次将对比损失应用于记忆模块内部项间差异化约束确保记忆项多样性挑战2对比损失系数γ₁γ₂0.1时效果最优。实现实时推理速度与精度平衡运行速度达**82.1 FPS**优于多数混合任务方法挑战3同时保持高准确率。相关工作综述(一) 学习范式局限现有方法主要包括[单任务方法]如MemAE [13]、MNAD [29]其核心思想是利用自动编码器或GAN进行帧级重建或预测但局限在于无法处理复杂背景下的细粒度异常定位如“手臂僵直行走”及过度依赖静态图结构无法捕捉运动演化过程。→ 本文改进采用双任务联合优化借助RGB误差空间聚焦于前景变化避免背景冗余建模。(二) 多任务协同限制另一类为[混合任务方法]如HF2-VAD [22]、MGSTRL [51]尝试整合多个代理任务以增强模型表达力但局限在于任务组合复杂导致实时性差如HF2-VAD仅76.2 FPS及各子任务之间可能存在冲突影响整体性能如动作识别与光流估计不一致。→ 本文改进构建轻量化的预测重建双任务流程降低任务耦合度并提升效率。(三) 记忆机制缺陷已有记忆网络如MemAE [13]、SDMAE [33]虽能抑制异常泛化但仍受限于固定记忆库容量与静态更新机制导致无法适应测试阶段新出现的正常模式如新场景下的人群流动。→ 本文改进引入动态记忆模块支持训练与测试双重更新机制强化模型在线学习能力。方法论详解图2.所提方法的概述。该方法由RGB误差引导多尺度预测编码EG-MPC框架和通过动态记忆模块DMMs增强的重建网络组成分别用于解决下一帧预测和预测帧重建代理任务。 表示U-Net的第 层。最佳效果以彩色显示。1. RGB误差引导的多尺度预测编码EG-MPC- 功能用于生成高质量的下一帧预测结果缓解背景噪声干扰。- 机制输入为RGB误差图 $ E_t G_t \ominus P_t $经编码器提取特征后送入四层时空细化模块STFRM。每层STFRM融合通道注意力CAU与带膨胀卷积的空间注意力SAU_d逐级关注不同尺度的预测误差区域。- 动机相比直接预测完整帧误差图更突出前景变化抑制静态背景学习偏好提升预测效率。此外多尺度设计增强了对小目标异常的感知能力。 ⚠️ 局限推测若原始视频分辨率过低或色彩单调如灰阶图像RGB误差可能不足以提供足够信息。2. 动态记忆辅助的预测帧重建网络- 功能通过对预测帧进行记忆驱动的重建进一步放大异常帧与正常帧之间的差异。- 机制U-Net骨干网络中嵌入两个独立的动态记忆模块DMM分别作用于第二、三级特征图。每个DMM内含N个记忆项通过查询-记忆相似度加权聚合完成重建并施加稀疏化与选择性更新策略。- 动机稀疏聚合防止异常被良好重建选择性更新允许测试阶段继续吸收新的正常模式提升模型泛化能力。 ⚠️ 局限推测当异常行为具有高度重复性且接近正常模式时可能导致记忆项误收录异常样本。3. 异常评分机制- **功能**量化每一帧是否异常的概率。- **机制**基于重建帧与真值间的PSNR计算得分再做归一化处理得到最终异常分数 $ S_t $。- **动机**PSNR作为衡量标准已被广泛验证适用于本任务中异常与正常的区分。 ⚠️ 局限推测对于长时间无明显活动的视频片段可能出现稳定但罕见的正常行为被判为异常。实验与验证性能对比| 数据集 | 本文方法(AUROC) | 最佳竞品(MGSTRL) | 提升幅度 ||---------------------|------------------|--------------------|-----------|| UCSD Ped2 | 99.1 | 92.4 | 6.7 || Avenue | 92.9 | 92.4 | 0.5 || ShanghaiTech | 86.0 | 85.1 | 0.9 || UCF-Crime | 82.1 | 80.6 | 1.5 |效率分析- 参数量相较MoCoDAD减少约**30%**- 推理速度**82.1 FPS**远超HF2-VAD76.2 FPS消融实验| 组件移除 | AUROC下降值 | Δ下降值 ||---------------------|-------------|----------|| 移除EG-MPC | ↓3.8% | ↓0.12 || 移除DMM | ↓4.2% | ↓0.15 || 不使用稀疏聚合 | ↓2.1% | ↓0.08 || 关闭测试更新 | ↓1.7% | ↓0.06 | 分析性能提升主要源于**双任务协同放大异常信号**以及**动态记忆机制提升了模型对多样化正常行为的学习能力**。结论与展望贡献重申双任务联合优化框架AUROC达86.0%RGB误差引导预测动态记忆重建Δ达0.431支持训练/测试双阶段更新的记忆机制FPS达82.1未来方向探索动态阈值自适应调整机制提升异常判定稳定性扩展至半监督设定结合少量标注样本提升检测精度针对长时间序列建模引入时间记忆单元应对周期性正常行为误判问题构建跨摄像头迁移学习机制拓展应用场景。局限性对于极低分辨率或灰阶视频RGB误差有效性受限在无异常长视频中可能误报稀有但合法的正常事件。