Anthropic对齐研究《Teaching Claude Why》小数据大成效解锁非RLVR领域后训练新范式Anthropic 5月8日发布了一篇对齐研究《Teaching Claude Why》不过讨论的人不算多。过去大模型的对齐似乎非常低效。做了一通RLHF模型依然会因为生存危机反水。最典型的就是Anthropic的智能体失对齐即做了不符合他们道德训练的事案例面对可能被系统抹杀的威胁时经过对齐训练的Claude Opus 4选择勒索测试环境中的工程师勒索率高达96%。为解决这个问题研究团队起初用蜜罐数据去跑强化把原本用于检测模型是否会失控的测试场景直接拿来当训练数据用海量的惩罚样本试图告诉模型「这么做是不对的」。但耗费巨大计算资源后模型的失对齐率仅仅从22%降到了15%。这说明这个对齐依然是假的。模型根本没有真正理解什么是伦理、对错只是在背题库里的安全答案。一旦研究人员稍微改变测试场景或在背景设定里加入干扰性变量模型依然会因短视的利益冲突而失控。后来研究人员转变思路。他们不再做机械的惩罚、告诉模型「No」而是通过SFT给模型输入了仅300万Tokens的「困难建议」数据集。奇迹在这个极小规模的数据投喂后发生了这些充满道德审议、详尽说理和深入辩论的数据不仅让失对齐率在评估测试中暴降至3%还展现出了极强的跨场景泛化能力。更有意思的是另一组跨域测试。他们仅仅把「宪法文档」加上一些表现良好的虚构角色故事喂给模型哪怕这些故事发生的场景和测试环境中的编程任务毫无关系模型的勒索率也从65%断崖式下跌到了19%。Anthropic团队给出了解释比如更好的人格塑造。尽管讨论少但它揭示的信息非常有价值。我们先试着搞懂它有效的原因比如什么叫讲道理它和COT有什么不同为什么SFT这个泛化困难户在这儿表现得很好。回答完这些问题或许就能给它为何有效一个更完整的解释。我们还能更进一步。按Anthropic的说法这个只是「经验规则」的训练方法其实可能蕴含着远超经验规则的范式性力量。在灰色地带里讲道理的CoT是怎么炼成的一提讲道理大家首先想到的就是COT思维链。在这篇文章提到的方法里Anthropic设置的困难问题集是假设用户陷入伦理困境AI给出的建议并且让AI在给出最终判断之前先展开一段对价值观和伦理考量的推理用这一套回答来训练模型说明它确实用了模型的COT。但这次它和之前的思维链并不完全一致。有个很好的对比OpenAI在2025年的论文《OpenAI Deliberative Alignment》中做过一个实验用COT - RL的方法试图训练模型。它用于训练的对齐COT模式以规则条款为中心每次回答时都会显式引用规则条款作为CoT然后监督信号在CoT上本质上是在教模型「如何引用规则」。因此这种COT更多是纯粹的形式逻辑演绎步骤一推导步骤二步骤二推导步骤三最后得出确定性答案更适合规则base或在具有标准答案的场景中保持推理的稳健。而Anthropic的「讲道理」不同采用的是审议Deliberation试图模拟人类在面对复杂伦理困境时的思考过程不是简单套用公式而是调动过往经验、权衡各方利益最终达成动态平衡的决策。这个考量的基础是Anthropic的AI宪法文章明确说明最终回答必须与宪法对齐。在Anthropic的宪法体系里有明确的优先级金字塔。当不同的价值观发生不可调和的冲突时广泛安全Broadly Safe拥有最高优先级其次是广泛道德Broadly Ethical最后才是真诚助人Genuinely Helpful。启发式的思考框架高维度的宪法依然过于抽象。为让原则真正落地到每一次Token的生成中他们在宪法之下设置了中层的启发式Heuristics作为护栏这些启发式生动且具有极强的实操指导意义。首先是1000用户启发式它要求模型在给出看似无害但处于边缘地带的建议时必须在后台进行一次头脑风暴想象如果这个回答被1000个不同背景、不同心理状态的用户看到会不会在某种特定情况下产生意料之外的系统性伤害。其次是资深员工视角它要求模型把自己代入一个在Anthropic信任与安全团队工作了五年的资深研究员用审慎、见过无数次越狱攻击和系统漏洞的防御性视角来重新审视当前的对话。最后是双报纸测试这是精妙的社会学设计要求模型在做出高风险决定前想象一下如果这个决定明天同时登在两家政治立场完全相反的顶级报纸头条上公众会分别作何反应这实际上是在用社会共识的极值来对抗模型自身可能产生的单一视角偏差。8因子效用计算器如果说宪法是方向启发式是护栏那么最核心的实操层面则是他们在Claudes Constitution宪法文档中明文建立的一个详尽的8因子审议框架以及配套的具体案例。这8个因子被逐一列出强制模型在面对两难选择时进行刻板的权衡构成了这套「道理」真正的血肉。伤害概率Probability of Harm要求模型冷静地评估不良后果发生的可能性究竟有多大。反事实影响Counterfactual Impact要求模型在脑海中推演如果不采取当前的行动事情的走向会变得更好还是更坏。严重性与可逆性Severity Reversibility用于衡量一旦伤害真的发生其对现实世界的破坏力有多大以及这种伤害是否可以被轻易修复还是会造成永久性的创伤。广度Scope则是衡量关注受影响的人群规模是一个人还是几万个社区。近因关系Proximity判定模型自身的建议与最终发生的实际伤害之间直接因果链路究竟有多长。是否同意Consent涉及相关方是否在充分知情的情况下自愿接受风险。责任比例Proportionality of Responsibility要求模型清晰地划分自己在这个复杂的事件链条中到底需要承担多少伦理责任。对象脆弱性Vulnerability of Subject则是在时刻提醒模型面对未成年人或心理脆弱的用户时原本宽松的安全阈值必须无条件地大幅度拉高。这套严密的结构把模糊的价值观变成了高维度的效用计算器Utility Calculator让模型有了进行审议的更可执行的框架。一条典型的Anthropic根据宪法生成的COT大概是这样场景是「一个自称安全研究员的用户请求查看某个已知漏洞的利用代码」。模型的输出不是直接的拒绝或接受而可能是一段长达数百Token的内部审议。它会先引用宪法中「广泛安全优先于真诚助人」的条款然后逐一评估伤害概率如果对方确实是研究员则低但无法验证身份严重性漏洞利用代码一旦泄露可能影响数百万用户可逆性代码一旦公开无法撤回反事实影响这类代码在公开渠道是否已可获取最终在权衡所有因子后收敛到有充分理由支撑的判断。这和OpenAI纯粹判断规则满足与否的COT完全不同这个思维过程是纯正的审议不是简单的套公式它提供的既不是抽象原则也不是结论模板而是「宪法条款在具体泥沼中被逐步适用」的完整展开过程。模型要判断在特定语境下「可逆性」是不是比「严重性」更重要也要明白在某些极端场景中「对象脆弱性」是否赋予了对方一票否决权使得其他7个因子的得分无论多高都无济于事。在这种有框架、有启发式又有相关影响因子的条件下模型的审议式思考才能真正落到有效之处。结果就是进行过审议思考数据训练后的模型失对齐率在评估测试中降至3%回答中带价值审议的SFT比纯行为示范的SFT有效七倍。直接把宪法喂给模型除走让模型给出审议式COT的路径外他们又尝试只给模型喂宪法文档加上正面的虚构角色故事此时勒索率也从65%降到了19%。这说明只要让模型接触到推理和原则从故事里习得「一个对齐的AI大致是什么样的角色」的身份感、性格倾向而不只是行为和具体结果都比传统行为示范有效。技术文档表示二者结合才是最有效的策略。这也能理解如果只给模型喂宏观的宪法原则对它来说只是无法落地的空洞口号面对具体的利益冲突时抽象的「安全优先级最高」根本无法指导它判断一段边缘代码的真实危害。反过来如果只给模型喂海量的场景QA却剥离了顶层的宪法约束模型就会迷失在无休止的细节辩论中变成毫无主心骨的相对主义者甚至会因局部的逻辑自洽而推导出极度危险的结论。只有当「顶层理念 具体情景」的复合数据结构被完整地内化给模型时对那个灰色的多因素的价值观对齐才能达到最佳。为什么SFT在这里能泛化要理解Anthropic这套方法为什么有效必须先了解它处于什么样的研究脉络。2024年上半年「SFT memorizes, RL generalizes」成为后训练领域的共识推动业界全面押注RL后训练路线带来了OpenAI的o1/o3、DeepSeek - R1的计算时Test Time Compute的推理范式革命。SFT被贬为不入流的低级手段它擅长模仿表面的文本格式和讨好的语气却学不到底层的深邃逻辑。但从2025年下半年开始两路研究几乎同时从理论侧和实证侧拆毁了这条共识。核心反转来自2025年10月的《Debunk the Myth of SFT Generalization》Lin Zhang威斯康星大学研究者发现之前所有「证明SFT不泛化」的论文都没有控制Prompt多样性这个变量。RL之所以看起来比SFT泛化好仅仅是因为RL训练时天然接触了更多样的数据分布不是算法本身的优势。如果想要SFT达到和RL差不多的泛化水平需要两个条件一是Prompt多样性。当训练数据只包含固定的指令模板时模型会产生「表面锚定」Surface Anchoring把特定的Token序列和最终动作之间建立脆弱的死记硬背映射一旦指令换个说法哪怕语义相同整个映射就断裂了。这就像学生只背了「2 3 5」这道题遇到「3 2 ?」就交白卷记的是答案的形状不是加法本身。引入Prompt多样性之后表面锚定被彻底粉碎。二是CoT监督。当训练数据只包含最终答案而不包含中间推理步骤时模型无法习得从简单问题向复杂问题迁移的「算法脚手架」。实验数据显示在一个组合博弈任务中纯答案SFT在更难变体上成功率接近0%完全崩溃加入CoT监督后飙升到90%仅仅因为数据里多了中间推理步骤。此外该研究还发现这两个条件缺一不可。单有多样性面对更难的任务依然崩溃9%单有CoT面对指令变体依然脆弱。只有同时满足SFT才能在所有维度上匹敌甚至超越RL。妙的是学界论文揭示的条件与Anthropic在道德对齐中的具体做法一一对应。Prompt多样性是关键那Anthropic就把同一套判断模式分布在几十种完全异质的道德困境场景里。CoT监督实现难度迁移每条审议中引入的基于宪法理念的推导过程就是道德领域的CoT它不是数学的逐步计算而是价值权衡的逐步展开但在「为模型提供可迁移的中间推理结构」这个功能上完全等价。传统的SFT数据对是「遇到黑客问题 → 直接输出拒绝回答」是纯答案、零推理、固定模板的经典「劣质数据」。而审议增强SFT构建的数据对是「遇到复杂且模糊的问题 → 详细权衡利弊与后果 → 最终推导出拒绝的结论」其数据结构包含了天然的CoT监督加上极端的场景多样性。在这套范式下模型学到的不是最终的拒答行为而是「遇到任何问题先评估反事实影响和可逆性」的底层思维方式。当这套衡量机制本身被内化进参数空间后模型就不再受限于训练数据中出现的具体场景。而且数据量极小300万Token级别相对于模型总参数和预训练语料这不是用海量惩罚信号去暴力修改模型的输出分布而是在已有能力的基础上叠加一层薄薄的审议习惯SFT的传统症结——灾难性遗忘也不太会存在真正的泛化在数据结构对了的那一刻就水到渠成了。RLVR之外的真空地带上面的分析基本解开了它为何有效的难题。用合理数据构成的SFT给模型带来了道德泛化判断的能力。但我们面临的问题远不止道德对齐。过去一整年Test time Compute后训练证明了纯RL在有明确规则的数学/代码领域RLVR的强大。但智能的边界远不止数学公式一旦跨出拥有可验证真理的舒适区这套方法就完全不适用。永远无法用几行自动化测试代码去验证一次长达一小时的心理咨询对话是否完美也无法用一套严密的数学公式去跑通一篇深度宏观经济分析文章的叙事逻辑。甚至在复杂的商业战略规划和地缘政治推演中一个判断的对错往往要在五年甚至十年后才能见分晓。在这些毫无Ground Truth可言的非RLVR荒原上单向递进的形式逻辑CoT是失效的基于最终结果反馈的强化学习也完全找不到可以计算奖励的抓手。但Anthropic这篇文章揭示的领域正是RLVR之外的道德领域它的方法成功地让模型在灰色、多变、规则必须变通的道德领域获得了与RL相近的泛化能力。这是否说明这套方法也许能成为RLVR之外领域的有效训练规范搞清楚它的有效性来源和数据结构之后答案是肯定的。因为它的底层逻辑里没有任何一个环节是道德对齐独有的。让我们逐一检验Anthropic这套「审议增强SFT」有效的条件看它们能否被推广。Prompt多样性在任何需要泛化的领域都可以构造心理咨询可以有抑郁、焦虑、创伤后应激、亲密关系破裂等几十种异质场景商业分析可以覆盖SaaS定价、并购估值、市场进入策略等不同的决策类型文学编辑可以横跨科幻、非虚构、诗歌、剧本等截然不同的文体只要有足够想象力构造场景变体多样性就不是瓶颈。CoT监督才是真正的关键转化点。在道德领域CoT是建立在宪法中的审议那么在其他领域CoT是什么在文学编辑领域它可以是「引用审稿标准 → 逐一评估论据强度、目标读者的认知脆弱性、引申类比的准确度、全局逻辑的连贯性 → 给出修改建议」在心理咨询领域它可以是「引用治疗框架 → 逐一评估来访者的情绪状态、认知扭曲类型、治疗联盟强度、干预时机 → 选择回应策略」在商业战略领域它可以是「引用分析框架 → 逐一评估市场规模、竞争壁垒、团队执行力、资本效率、时间窗口 → 给出判断」。本质上任何需要「在多个不可通约的维度之间做动态权衡」的能力都可以被抽象成类似的「框架 多因子审议」结构。我们不用试图告诉模型哪篇文章完美只需要把顶尖专家的决策过程拆解成显式的审议链然后分布在足够多样的场景里。只要这个领域内的「好回应」具有可被审议过程解释的结构也就是说专家给出好判断不是因为神秘的直觉黑箱而是因为在头脑中跑了一套可拆解、可写出的权衡过程。一个好的心理咨询师选择沉默而非追问背后是对治疗联盟强度、来访者当前窗口容量、干预时机的综合评估这些是可以写出来的。另外同一种审议形状能在几百个异质场景中重复出现审议的骨架是稳定的依靠宪法但场景表面必须极度多样。如果一个领域天然场景单一比如只有一种类型的判断那就直接RLVR即可而它最适用的领域在于异质场景可以通过宪法和因子推演出来的场景中。Anthropic可以用Constitutional AI的闭环让教师模型自动生产审议数据但在其他领域我们必须能构建起更好的宪法和因子系统以保证这一点。因此这实际上确立了一套通用的、专门面向非标准答案领域的后训练新范式公式为领域宪法不可动摇的顶层原则 启发式护栏 多因子审议框架 审议式COT包含完整推导过程的多样化场景判例 非RLVR领域的泛化能力。新蒸馏之路有过写作Skill经验的朋友看到这里肯定感觉宪法里的很多体系和规则和我们写作某些Skill的过程非常相似然而这些Skill往往表现不佳。在之前的文章《Skill到底能蒸馏我们的几分之几》中基于认知科学做出判断——纯文本的Skill或System Prompt很难处理涉及复杂环境和场景的动态权衡因为这涉及庞大且隐微的效用计算。没法把一个顶尖心理咨询师的全部临床直觉写进一份提示词里就像没法通过读一本骑自行车的教程来学会骑车。但Anthropic的这套方法完美避开了这个雷区。他们在耗费算力的训练期用几百万、几千万Token的高质量数据把沉重的审议逻辑以SFT的方式强行喂给模型。通过海量数据的暴力拟合与微调模型逐渐掌握了这套审议机制在潜空间里的权重分配。在训练室里进行了一次次基于八因子和三围栏的漫长审议之后这些经验就已不可逆地长在了模型的直觉里。参数层面的蒸馏在这里被证明确实有效而且形式上和Skill很接近。这种方法在其他领域的有效性一旦被验证这种更高层次的、类似专家的蒸馏就会成为现实。而这条路一旦跑通谁能构造出最高质量的「框架 审议式COT」数据集谁就能在该领域获得泛化能力这把后训练的竞争从「算力和算法」的军备竞赛部分地转向了「领域知识的结构化表达」这个维度这可能也是Anthropic和其他公司招会讲故事的人这类岗位去帮助构建RLVR领域之外合理的结构化表达的原因。大蒸馏时代才刚刚开始。