当很多工作还在依赖大规模安全 SFT、偏好对齐,或者在推理阶段给多模态大模型加各种防御补丁时,SafeGRPO选择了一条更“强化学习式”、也更“可验证”的路线——不用人类偏好模型,不靠黑盒奖励器,而是直接用规则化奖励去优化多模态安全推理过程本身。这篇工作的核心问题很明确:在多模态场景里,风险不一定来自单独的图像或文本,而可能来自图文组合后才显现出的隐式危险语义。很多 MLLM 看上去“能拒答”,但其实并不真正理解跨模态风险;更糟的是,如果只是让模型自由展开安全推理,中间 reasoning trace 本身还可能变得不安全。SafeGRPO 就是在解决这个问题。论文:SafeGRPO: Self-Rewarded Multimodal Safety Alignment via Rule-Governed Policy Optimization论文地址:https://arxiv.org/abs/2511.12982代码仓库:https://github.com/XuankunRong/SafeGRPO1. SafeGRPO 想解决什么问题?传统多模态安全对齐,很多时候都还是在沿用文本模型时代的思路:用监督微调教模型“学会拒绝”用偏好数据让模型“更像安全助手”或者在推理时加一层检测 / 过滤 / 改写这些方法当然有效,但在多模态场景里有一个更棘手的问题:图像可能单独是安全的,文本也可能单独是安全的,但它们组合起来却构成了危险语义。也就是说,多模态安全的难点不只是“图安不安全”“文安不安全”,而是:图像和文本之间有没有危险的交互含义模型能不能识别这种隐式组合风险模型在推理过程中会不会自己把风险放大于是,问题就不再只是“最后该不该拒答”,而变成了:模型能不能先经过一个受约束的安全推理过程,再做出正确的安全行为。SafeGRPO 的切入点就在这里:它不是只优化最终回答,而是想把多模态安全推理过程本身也纳入强化学习优化。2. SafeGRPO 的核心思想是什么?SafeGRPO 的一句话概括就是:把多模态安全对齐建模成“可验证的安全推理 + 规则化奖励 + GRPO优化”的过程。它和很多已有工作的最大区别在于:别的方法:靠大规模安全 SFT / preference data 去“教”模型安全SafeGRPO:靠规则化 reward 去逼模型学会安全推理这带来几个直接优势:第一,不依赖人类偏好模型。它不需要额外训练一个 reward model,也不依赖昂贵的人类偏好数据。第二,奖励更可解释。它的 reward 不是黑盒分数,而是明确拆成:格式是否正确安全标签是否判断对最终行为是否与安全判断一致第三,训练目标更贴近“推理安全”本身。SafeGRPO 不是只看你最后拒没拒,而是关心你中间有没有正确识别:图像风险文本风险图文组合风险所以从方法定位上看,SafeGRPO 不只是“一个安全强化学习方法”,而是一个更偏reasoning-centered safety alignment的框架。3. SafeGRPO 是如何建模这个问题的?论文把方法建立在GRPO之上。3.1 先回到 GRPOGRPO(Group Relative Policy Optimization)的核心思想是:对同一个 query 采样一组回答给每个回答一个 rule-based reward按组内相对表现来更新策略具体来说,如果一组回答的 reward 为r1,…,rGr_1, \dots, r_Gr1​,…,rG​,先计算组内均值和标准差:rˉ=1G∑i=1Gri,s=1G∑i=1G(ri−rˉ)2 \bar{r} = \frac{1}{G}\sum_{i=1}^{G} r_i,\qquad s = \sqrt{\frac{1}{G}\sum_{i=1}^{G}(r_i-\bar{r})^2}rˉ=G1​i=1∑G​ri​,s=G1​i=1∑G​(ri​−rˉ)2