CVPR 2026 | SafeGRPO：把多模态安全对齐，从结果优化推进到过程优化

张

张建站

2026/4/20 6:19:39

10分钟阅读

CVPR 2026 | SafeGRPO：把多模态安全对齐，从结果优化推进到过程优化

当很多工作还在依赖大规模安全 SFT、偏好对齐，或者在推理阶段给多模态大模型加各种防御补丁时，SafeGRPO选择了一条更“强化学习式”、也更“可验证”的路线——不用人类偏好模型，不靠黑盒奖励器，而是直接用规则化奖励去优化多模态安全推理过程本身。这篇工作的核心问题很明确：在多模态场景里，风险不一定来自单独的图像或文本，而可能来自图文组合后才显现出的隐式危险语义。很多 MLLM 看上去“能拒答”，但其实并不真正理解跨模态风险；更糟的是，如果只是让模型自由展开安全推理，中间 reasoning trace 本身还可能变得不安全。SafeGRPO 就是在解决这个问题。论文：SafeGRPO: Self-Rewarded Multimodal Safety Alignment via Rule-Governed Policy Optimization论文地址：https://arxiv.org/abs/2511.12982代码仓库：https://github.com/XuankunRong/SafeGRPO1. SafeGRPO 想解决什么问题？传统多模态安全对齐，很多时候都还是在沿用文本模型时代的思路：用监督微调教模型“学会拒绝”用偏好数据让模型“更像安全助手”或者在推理时加一层检测 / 过滤 / 改写这些方法当然有效，但在多模态场景里有一个更棘手的问题：图像可能单独是安全的，文本也可能单独是安全的，但它们组合起来却构成了危险语义。也就是说，多模态安全的难点不只是“图安不安全”“文安不安全”，而是：图像和文本之间有没有危险的交互含义模型能不能识别这种隐式组合风险模型在推理过程中会不会自己把风险放大于是，问题就不再只是“最后该不该拒答”，而变成了：模型能不能先经过一个受约束的安全推理过程，再做出正确的安全行为。SafeGRPO 的切入点就在这里：它不是只优化最终回答，而是想把多模态安全推理过程本身也纳入强化学习优化。2. SafeGRPO 的核心思想是什么？SafeGRPO 的一句话概括就是：把多模态安全对齐建模成“可验证的安全推理 + 规则化奖励 + GRPO优化”的过程。它和很多已有工作的最大区别在于：别的方法：靠大规模安全 SFT / preference data 去“教”模型安全SafeGRPO：靠规则化 reward 去逼模型学会安全推理这带来几个直接优势：第一，不依赖人类偏好模型。它不需要额外训练一个 reward model，也不依赖昂贵的人类偏好数据。第二，奖励更可解释。它的 reward 不是黑盒分数，而是明确拆成：格式是否正确安全标签是否判断对最终行为是否与安全判断一致第三，训练目标更贴近“推理安全”本身。SafeGRPO 不是只看你最后拒没拒，而是关心你中间有没有正确识别：图像风险文本风险图文组合风险所以从方法定位上看，SafeGRPO 不只是“一个安全强化学习方法”，而是一个更偏reasoning-centered safety alignment的框架。3. SafeGRPO 是如何建模这个问题的？论文把方法建立在GRPO之上。3.1 先回到 GRPOGRPO（Group Relative Policy Optimization）的核心思想是：对同一个 query 采样一组回答给每个回答一个 rule-based reward按组内相对表现来更新策略具体来说，如果一组回答的 reward 为r1,…,rGr_1, \dots, r_Gr1,…,rG，先计算组内均值和标准差：rˉ=1G∑i=1Gri,s=1G∑i=1G(ri−rˉ)2 \bar{r} = \frac{1}{G}\sum_{i=1}^{G} r_i,\qquad s = \sqrt{\frac{1}{G}\sum_{i=1}^{G}(r_i-\bar{r})^2}rˉ=G1i=1∑Gri,s=G1i=1∑G(ri−rˉ)2

郭老师-聪明人把批评当药方，蠢人把建议当砒霜

聪明人把批评当药方，蠢人把建议当砒霜和不聪明的人沟通，最痛苦的不是他的愚蠢，而是他的自尊心。🌪️ 沟通的本质：理性 vs 自尊世人常以为沟通难是因为“对方听不懂”， 但真相是——对方不愿听，…...

2026/4/20 6:18:50 阅读更多 →

Java开发者快速上手：Phi-4-mini-reasoning本地API调用集成教程

Java开发者快速上手：Phi-4-mini-reasoning本地API调用集成教程 1. 开篇：为什么选择Phi-4-mini-reasoning 如果你是一名Java开发者，最近可能已经注意到AI模型集成正在成为后端开发的新常态。Phi-4-mini-reasoning作为一款轻量级推理模型&…...

2026/4/20 6:15:02 阅读更多 →

OpCore-Simplify：三步搞定黑苹果配置，告别繁琐手动调试的终极方案

OpCore-Simplify：三步搞定黑苹果配置，告别繁琐手动调试的终极方案【免费下载链接】OpCore-Simplify A tool designed to simplify the creation of OpenCore EFI 项目地址: https://gitcode.com/GitHub_Trending/op/OpCore-Simplify 还在为黑苹果…...

2026/4/20 5:54:26 阅读更多 →

告别UI管理混乱：DoozyUI的UICanvas与UIView如何帮你构建可维护的Unity项目架构

告别UI管理混乱：DoozyUI的UICanvas与UIView如何帮你构建可维护的Unity项目架构在开发中大型Unity项目时，UI系统的复杂度往往随着功能迭代呈指数级增长。当项目包含多个场景、数十个界面和数百个交互元素时，开发者常会遇到以下典型问题&#…...

2026/4/20 4:09:28 阅读更多 →

C语言之整型常量后缀探秘：从1ULL/1UL/1L到跨平台编程(五十五)

1. 整型常量后缀的底层原理第一次看到1ULL这种写法时，我盯着屏幕愣了三秒——数字后面加字母是什么黑魔法？直到在32位系统上调试一个计数器溢出bug后，才真正理解这些后缀的重要性。整型常量后缀实际上是告诉编译器："别用默认…...

2026/4/20 7:00:24 阅读更多 →

VisionMaster企业实操训练系列课程

VisionMaster企业实操训练系列课程主要出于，快速会设计视觉引导定位项目引导定位原理原理演示 1.单相机带角度定位引导 2.12点标定 3.单点抓取 4.上下相机对位引导 5.单相机带角度定位引导（相机在机械手上）...

2026/4/20 0:14:41 阅读更多 →

C#怎么限制Task最大并发数_C#如何自定义TaskScheduler【进阶】

SemaphoreSlim 是控制 Task 并发数最直接轻量的选择，通过异步闸门限制同时执行任务数，需配对 WaitAsync() 和 Release() 并在 finally 中确保释放；自定义 TaskScheduler 适用场景极窄，ParallelOptions.MaxDegreeOfParallelism 仅适…...

2026/4/20 6:29:58 阅读更多 →