一篇刚刚挂在arXiv上的论文正在悄悄戳破大模型对齐领域一个心照不宣的痛点。这篇论文来自斯坦福大学题为《General Preference Reinforcement Learning》通用偏好强化学习简称GPRL作者包括斯坦福大学的多位研究者以及来自俄克拉荷马大学和独立研究者的联合团队。论文于2026年5月18日上传直指当前大模型后训练post-training领域的一个核心矛盾在线强化学习训练得越久模型反而越差。这不是危言耸听。实验数据清晰地显示当使用传统标量奖励模型做强化学习时GRPOBT的方案在训练到一定程度后就开始走下坡路AlpacaEval 2.0分数从峰值一路滑落最终停在41.92分。而GPRL在同样的训练周期内持续提升第三个epoch达到56.51分领先超过14个百分点。差距的根源不在算力不在数据量在于奖励信号本身的形状。一个标量分数装不下人类对质量的期待故事要从奖励黑客reward hacking说起。这是强化学习对齐领域公认的顽疾。训练一个策略模型时研究者先训练一个奖励模型Reward ModelRM用来打分再让策略模型不断优化以拿高分。问题在于真正的好回答是多维度的——事实准确、对用户有帮助、表达安全、行文流畅……把这些维度压缩进一个数字信息必然丢失。代理指标一旦被优化就会背叛它本来代表的东西——这叫古德哈特定律Goodharts Law。对于LLM对齐来说最常见的表现是越说越长奖励模型发现长回答往往更受人类评估员青睐于是模型学会拼命堆砌字数内容未必变好评分却不断攀升。更深层的问题是标量奖励模型在数学结构上就无法表达非传递偏好intransitive preferences。所谓非传递偏好是指A比B好、B比C好但C又比A好——这种循环偏好在人类真实判断中普遍存在却被标量模型直接忽略因为标量必须施加全序关系不允许这种循环。论文指出既有的两条技术路线都没有真正解决这个问题。一条路线是DPO、SimPO、SPPO等偏好优化方法处理开放性任务效果不错但依赖静态或迭代刷新的偏好数据没有在线强化学习的持续探索能力另一条路线是以GRPO为代表的在线RL方法需要一个可编程验证器比如数学题的对错判断在数学、代码任务上表现出色但无法扩展到开放性生成任务一旦换成学习型标量RM奖励黑客问题就卷土重来。GPRL的目标就是用一个结构上更诚实的奖励信号把两条路线连接起来。把偏好嵌进向量空间而不是压缩成一个数GPRL的核心依赖是通用偏好模型General Preference ModelGPM这是Zhang et al.此前提出的工作。GPM的基本思路是与其给每个回答打一个分数不如把每个回答映射成一个向量再用向量之间的关系来表达偏好。具体来说GPM把每个回答嵌入到2k维空间分成k个独立的二维子空间每个子空间捕捉质量的一个不同维度。以k3为例论文在Skywork-Reward语料库上验证k3时性能饱和三个子空间大致对应有用性对比冗长性、事实准确性对比语言流畅性、安全性对比直接性。每对回答在每个子空间的得分是两个向量构成的平行四边形有向面积——几何上意味着相对相位越接近得分越低差异越大得分越高。这种表示方式有两个关键优势。第一它可以天然表达非传递偏好三个子空间组合的循环偏好在数学上是合法的不需要像标量那样强行施加全序第二每个子空间的得分被单位范数约束限制在[-1, 1]之间不会随训练过程漂移给后续的漂移监控器提供了稳定的参照。但GPM本身的配套优化器GPO是迭代式的——固定策略、收集数据、训练至收敛、刷新策略……这本质上和DPO系方法一样没有真正的在线探索。GPRL做的是保留GPM作为奖励源把GPO的迭代回归替换成GRPO风格的在线策略梯度更新。多维优势函数让每个维度都有发言权GPRL最核心的技术设计在于如何把GPM的k维输出转化为策略梯度可以用的优势函数advantage。标准GRPO的做法是对同一个提示采样G个回答用奖励模型打分组内归一化得到优势分数。GPRL沿用这个框架但把一个分数扩展成k个维度的分数并引入了三步处理第一步逐维度计算群体相对得分。 对于每个回答计算它在k个子空间中分别与组内其他回答比较的平均得分。这相当于在每个质量维度上分别问这个回答比组内平均水平好多少第二步逐维度独立归一化。 每个维度的得分只用该维度自己的均值和标准差来归一化。这一步是防止奖励黑客的关键机制。如果用全局归一化某个量级最大的子空间会淹没其他子空间逐维度归一化后每个子空间的贡献都被拉到单位方差尺度任何一个维度都无法仅凭长得更大来主导梯度方向。第三步用上下文相关的特征值加权聚合。 GPM本身会为每个提示输出k个特征值eigenvalues反映该提示在各维度上的相对重要性。这些特征值作为权重把k个归一化后的维度优势加权相加得到最终的聚合优势分数。这个聚合分数直接代入标准GRPO的截断代理目标函数clipped surrogate objective形式上和GRPO完全一致只是优势函数的计算方式变了。这意味着GPRL可以无缝接入现有的大规模RL训练基础设施额外成本只是GPM的一次前向传播和普通奖励模型的推理成本相当。论文还证明了一个重要性质命题1对于任意提示和任意维度组内所有回答的优势之和为零。这是群体相对方法保持低方差的核心条件在k维情况下依然成立说明多维度聚合不会破坏GRPO本来的统计性质。漂移监控器训练过程中的实时纠偏但光有多维奖励还不够。论文设计了一个闭环漂移监控系统在训练过程中实时检测和纠正奖励黑客的萌芽。机制的出发点很直观当策略开始奖励黑客某个维度l时组内回答在l上的方差会异常扩大而在其他维度上的方差会萎缩——因为策略把聪明才智都集中在优化那一个维度了。定义每个维度的方差占比为α_l用当前时刻的α与初始分布α(0)之间的KL散度D(t)作为漂移指标。健康训练时D(t)接近零发生奖励黑客时D(t)会快速攀升。控制器的响应逻辑是一旦D(t)超过阈值τ就对每个维度施加一个乘数m_l过度增长的维度乘以小于1的系数被压低被忽视的维度乘以大于1的系数被拉高同时收紧KL散度的正则化系数β防止策略继续大步偏移。D(t)回落后控制器逐渐松弛恢复到基准状态。图3展示了典型的漂移轨迹对比健康运行时各维度方差占比保持稳定发生黑客时某一维度方差份额猛增控制器介入后方差分布被拉回平衡而使用标量BT奖励模型时代理分数单调攀升完全看不到这个信号。论文特别指出把τ设得过小会适得其反。阈值太低控制器会在策略还没来得及在某个维度上积累真正有效信号之前就开始干预强行把方差拉回初始分布实际上损失了有用的信号。实验表明τ0.2是默认最优选择。数字说话比GRPOBT领先14个百分点实验从Llama-3-8B-Instruct出发奖励模型在Skywork-Reward上训练策略模型在UltraFeedback的提示上做在线rollout每个提示采样8个回答完成长度512 token训练3个epoch。AlpacaEval 2.0的长度控制胜率LC WR是这项工作最核心的指标因为它显式去除了答案长度偏差。结果GPRL8B GPM56.51%GRPOBT8B BT41.92%差距14.59个百分点最强迭代式基线SPPO8B BT42.55%差距13.96个百分点DPO40.30%SimPO44.70%在Arena-Hard v2、MT-Bench、WildBench三个基准上GPRL同样全面领先且优势持续到训练第5个epoch而其他方法普遍在第3个epoch附近开始退步。回答长度的数据同样有意思。迭代式GPM方法SPPOGPM、GPOGPM到第3轮时回答膨胀到2400到3300 tokenLC胜率却停滞不前。GPRL的平均回答长度只有1600 token是所有有奖励模型的方法里最短的LC胜率却是最高的——二者同步改善而不是此消彼长。分类别来看GPRL在结构性任务上的增益格外突出MT-Bench代码类别比最强迭代式基线高出1.00分WildBench数学/数据类别比GRPOBT高出2.84分。论文认为这与在线RL结合丰富奖励信号能够涌现出链式推理能力的规律一致GPM的k个子空间为这些任务提供了足够的判别信号防止策略在这些提示上退化为风格模仿。k值消融实验印证了这一切k1时GPRL退化为标量GRPOLC WR为44.21k3时达到56.51k6时开始微跌说明在当前的监督语料库上三个维度已经覆盖了大部分有效信号超出的维度只会放大噪声。一个方法论意义上更大的断言论文的结论部分提出了一个超出技术细节的判断奖励的形状而不仅仅是奖励的强度才是解决在线RL与开放性对齐之间裂缝的关键变量。监督结构是第一类设计变量而不是损失函数的固定属性。这句话是对当前后训练思路的一次方法论修正。过去的共识大体是给足数据、调好超参、RLHF就能work。但这篇论文的结论是标量奖励在结构层面就错了把k维输出压成一个数的那一刻任何在线RL都注定找到单轴捷径。这个逻辑在更大范围内也成立。任何用学习的代理指标替代真实目标的场景只要目标是多维的代理指标是一维的就会面临同样的奖励黑客问题。GPRL给出的思路——保留奖励的结构、在优化过程中监控结构是否被破坏、以结构失衡作为干预信号——不只是LLM对齐的局部技巧可能是一个更通用的框架。当然GPRL也有它承认的边界。它依赖GPM本身的校准质量如果某个质量维度压根没有被GPM表征为一个子空间GPRL的逐维度归一化会忠实地放大这个空白。当前实验局限在单一基础模型、单一奖励语料库、单一rollout语料库上k3的饱和点是Skywork-Reward的属性不是GPRL或GPM本身的属性。漂移控制器的闭环动力学也没有收敛性保证参数选择不当可能导致D(t)振荡。QAQ1GPRL为什么比GRPOBT强这么多核心机制是什么GRPOBT使用标量奖励模型策略的梯度只受一个数影响。一旦模型找到某个捷径比如拼命堆字数能让这个数变大梯度就会一直往那个方向推其他质量维度的退化完全不可见。GPRL把奖励换成k维向量每个维度独立归一化任何一个维度都不能靠量级大来垄断梯度同时漂移监控器实时检测哪个维度的方差份额异常扩大一旦发现就压低那个维度的权重把梯度拉回平衡。Q2逐维度归一化和全局归一化有什么实质区别如果用全局归一化三个子空间共用一套均值和标准差量级最大的那个子空间的得分会在归一化后主导其他子空间等于变相退化成一维。实验验证了这一点换成全局归一化后LC WR下跌约4个点回答长度重新膨胀到2104 token复现了迭代式GPM方法的冗长模式。逐维度归一化把每个子空间都拉到单位方差谁也无法靠更大来碾压其他维度。Q3漂移监控器的阈值τ设得越小越好吗不是过小的τ反而有害。阈值太低控制器会在策略刚开始集中优化某个维度时就介入但策略在该维度的集中可能是合理的比如当前提示批次恰好在考察事实准确性强行把方差拉平等于丢掉了有用信号结果比不开控制器还差。τ0.2是论文测试后确定的默认值在允许策略积累真实信号和阻止单轴奔跑之间取得了平衡。