收藏必备！小白程序员轻松入门大模型后训练技术，提升模型推理与对齐能力

张

张建站

2026/6/20 19:05:41

10分钟阅读

收藏必备小白程序员轻松入门大模型后训练技术提升模型推理与对齐能力本文系统梳理了大语言模型LLM后训练Post-training的核心方法与最新进展通过餐厅培训厨师的类比帮助读者建立直观理解。文章详细解析了监督微调SFT、基于人类反馈的强化学习RLHF、直接偏好优化DPO等关键技术并介绍了GRPO、RLVR等前沿算法。此外还探讨了Agentic RL等未来趋势旨在帮助读者全面掌握大模型后训练技术提升模型推理与对齐能力1、引言什么是 Post-Training大语言模型LLM的训练通常分为两个大阶段预训练Pre-training 和后训练Post-training。预训练阶段通过海量无标注文本让模型学会语言的基本规律和世界知识产出的是一个什么都知道一点、但什么都不太好用的基座模型。而 Post-training 则是将这个毛坯房精装修成真正好用的产品的过程——让模型学会遵循指令、与人类偏好对齐、具备推理能力甚至能使用工具完成复杂任务。从 2022 年 ChatGPT 横空出世至今Post-training 技术经历了爆发式的演进。如果用一句话概括当前的格局SFT 教模型说什么偏好优化教模型怎么选而 RL 教模型怎么想。本文将以直观的方式系统梳理这一领域的核心方法和最新进展特别适合之前没怎么接触过 RL 的读者。2、直觉建立一个餐厅的类比在深入技术细节之前让我们用一个餐厅培训厨师的类比来建立直觉想象你开了一家餐厅招了一个天赋异禀的厨师Pre-trained Model。这个厨师读过所有的菜谱书预训练数据知道各种食材和烹饪技法但从没真正为客人做过菜。SFT监督微调就像是让资深厨师手把手教他做几道招牌菜——“这道菜应该这样做”。学完之后他能按照标准流程做出不错的菜品。RLHF基于人类反馈的强化学习则更进一步让食客品尝他做的多道菜并排序——“这道比那道好吃”。然后根据食客的偏好反复调整口味。这里的食客评分系统就是 Reward Model而厨师根据评分不断改进的过程就是 PPO/GRPO 等 RL 算法在做的事。DPO直接偏好优化则是一种更简洁的方式不需要单独训练一个评分系统而是直接从A 菜比 B 菜好的对比数据中学习省去了中间环节。RLVR基于可验证奖励的 RL 适用于有标准答案的场景比如做数学题——答案对就是对、错就是错不需要人来打分。这就像是让厨师参加烹饪比赛评判标准完全客观比如蛋糕是否在 30 分钟内烤熟且内部温度达标。Agentic RL 则是最新的方向不仅要求厨师会做菜还要会查菜谱、去市场采购、协调后厨——像一个完整的主厨智能体一样工作。3、技术深潜核心方法详解3.1 SFT监督微调——一切的起点监督微调Supervised Fine-Tuning是 Post-training 最基础也最直观的方法。其核心思路是收集高质量的promptresponse数据对然后用标准的交叉熵损失函数对预训练模型进行微调。SFT 的数据通常包括指令跟随数据如 Alpaca、ShareGPT 格式的对话、特定领域的专业数据、以及多轮对话数据。近年来合成数据Synthetic Data在 SFT 中扮演着越来越重要的角色——用更强的模型如 GPT-4生成训练数据来教较小的模型这种做法被称为知识蒸馏Knowledge Distillation。SFT 的常见实现方式包括全参数微调Full Fine-tuning和参数高效微调PEFT后者以 LoRA 和 QLoRA 最为流行。LoRA 通过在模型权重矩阵旁边添加低秩分解矩阵来实现高效训练通常只需要训练原始参数量的 0.1%~1% 。关键认知SFT 教会模型输出的格式和风格应该是什么样的但它本质上是在模仿无法让模型学会超越训练数据的能力。这就是为什么我们需要 RL。3.2 RLHF基于人类反馈的强化学习——对齐的经典范式RLHF 是 InstructGPT 和 ChatGPT 背后的核心技术由 OpenAI 在 2022 年的论文中系统阐述。其完整流程分为三步Step 1监督微调SFT。首先收集人类撰写的高质量回答对预训练模型进行监督微调得到一个初始的 SFT 模型。这一步是后续 RL 训练的前提条件。Step 2训练 Reward Model。对于每个 prompt让 SFT 模型生成多个通常 4 个不同的回答然后由人类标注者对这些回答进行排序。利用这些排序数据训练一个 Reward Model奖励模型使其能够对任意回答给出一个标量分数反映该回答的质量。Step 3PPO 优化。使用训练好的 Reward Model 作为奖励信号通过 PPO 算法对 SFT 模型进行进一步优化。在这个过程中模型不断生成回答、获得奖励、更新策略逐步学会生成更符合人类偏好的内容。RLHF 的一个重要变体是 RLAIFReinforcement Learning from AI Feedback其核心区别在于用 AI 模型而非人类来提供偏好反馈从而大幅降低标注成本。Anthropic 的 Constitutional AI 就是这一思路的典型代表。3.3 PPORL 的主力算法PPOProximal Policy Optimization是 RLHF 中最经典的 RL 优化算法。要理解 PPO 在 LLM 训练中的角色需要先明确几个概念在 RL 的语境下LLM 就是策略Policy它根据输入的 prompt状态生成 token 序列动作。PPO 的核心目标是在每次更新中让策略朝着获得更高奖励的方向改进但又不能改变太大通过 clipping 机制约束以保证训练的稳定性。PPO 在 LLM 训练中需要同时维护四个模型PPO 的损失函数核心是 clipped surrogate objectiveL min(r(θ) · A, clip(r(θ), 1-ε, 1ε) · A)其中 r(θ) 是新旧策略的概率比A 是 advantage优势函数ε 是 clip 范围通常 0.1~0.2。这个 clip 机制确保每次更新的幅度不会太大是 PPO 稳定性的关键。PPO 的主要问题在于需要同时加载四个模型显存开销巨大训练过程中需要在生成rollout和更新之间反复切换工程复杂度高超参数敏感调参困难。3.4 GRPO去掉 Critic 的轻量级 RLGRPOGroup Relative Policy Optimization由 DeepSeek 团队在 2024 年提出是当前开源推理模型训练中最流行的 RL 算法。GRPO 的核心创新在于用组内相对排名来替代 Value Model 估计 advantage从而完全去掉了 Critic 模型。GRPO 的工作流程如下对于每个 prompt采样 G 个通常 8~64 个回答分别获得奖励分数 r₁, r₂, …, r_G。然后对这组奖励进行归一化Advantage_i (r_i - mean®) / std®这样组内表现好于平均水平的回答获得正的 advantage被鼓励差于平均水平的获得负的 advantage被抑制。这种方式不需要单独训练一个 Value Model大幅降低了资源需求。3.5 RLVR可验证奖励——推理模型的关键RLVRReinforcement Learning with Verifiable Rewards是 2025 年最重要的技术趋势之一。与 RLHF 使用学习得到的 Reward Model 不同RLVR 使用基于规则的确定性验证器来提供奖励信号。RLVR 的适用场景是那些答案可以被客观验证的领域RLVR 的奖励设计通常包含两部分准确性奖励答案是否正确和格式奖励输出是否符合要求的格式如 ……。DeepSeek-R1 就是使用 GRPO RLVR 训练的典型代表。关键认知RLVR 之所以重要是因为它解决了 RLHF 中 Reward Model 的两大痛点——reward hacking模型学会欺骗 Reward Model 而非真正变好和标注成本高。在可验证领域规则就是最好的奖励函数。3.6 DPO 及其变体不需要 RL 的偏好优化DPODirect Preference Optimization在 2023 年横空出世提供了一种完全不同的思路直接从偏好数据中优化策略不需要训练 Reward Model也不需要 RL 训练循环。DPO 的核心洞察是RLHF 的最优解可以被重新参数化为一个简单的分类损失函数。给定一对 (preferred response, rejected response)DPO 直接最大化 preferred response 的对数概率相对于 rejected response 的优势同时通过 reference model 进行正则化。然而随着实践的深入DPO 暴露出一些局限性催生了一系列变体值得注意的是DPO 系列方法属于 offline 方法——它们使用预先收集的静态数据进行训练不需要在训练过程中让模型生成新的回答。这使得它们比 PPO/GRPO 等 online RL 方法更简单、更稳定但也意味着它们无法从模型自身的探索中学习在提升推理能力方面不如 online RL 方法有效。3.7 DeepSeek-R1纯 RL 训练推理模型的里程碑DeepSeek-R1 是 2025 年初最具影响力的工作之一它首次证明了纯 RL 训练不需要 SFT就能让模型涌现出强大的推理能力。DeepSeek-R1 的训练分为两条路线R1-Zero纯 RL 路线直接在预训练的 DeepSeek-V3 基座模型上使用 GRPO RLVR 进行训练完全跳过 SFT 阶段。令人惊讶的是模型在训练过程中自发涌现出了复杂的推理行为——包括自我反思“Wait, let me reconsider…”、问题分解、多路径探索等。这些行为并非被显式编程而是 RL 训练过程中自然产生的被称为 “Aha moment”。R1完整路线在 R1-Zero 的基础上加入了 SFT 数据进行冷启动cold start然后再进行 RL 训练。这种方式产出的模型在格式规范性和可读性上优于 R1-Zero同时保持了强大的推理能力。DeepSeek-R1 的训练过程中还有一个重要发现随着 RL 训练的推进模型生成的回答长度会自然增长——模型学会了多想一会儿来解决更难的问题。这本质上是 inference-time scaling 的训练端体现。3.8 GRPO 的改进DAPO、Dr.GRPO 和工程技巧原始的 GRPO 在大规模训练中存在一些微妙的问题催生了一系列改进工作Entropy Collapse熵坍塌是最严重的问题随着训练推进策略的熵快速下降模型对同一个 prompt 采样出的 G 个回答变得几乎完全相同失去了探索能力。这在 RL 中是经典的 exploration vs. exploitation 困境。DAPODecoupled Alignment Policy Optimization 针对这些问题提出了四个关键改进第一Clip-Higher对正 advantage 的回答放宽 clipping 上界从 1ε 提高到 1ε’其中 ε’ ε鼓励模型更大胆地探索好的方向同时保持对坏方向的严格约束。第二Dynamic Sampling过滤掉那些 G 个回答全对或全错的 prompt。全对意味着这个问题太简单、没有学习价值全错意味着太难、当前学不会。只保留有区分度的 prompt 进行训练。第三Overlong Filtering对超过最大长度限制的回答不给予惩罚设 reward 为 0而不是像原始 GRPO 那样给负奖励。这避免了模型学会为了不被惩罚而生成短回答的不良行为。第四Token-level Loss按 token 而非 sequence 计算损失避免长序列在梯度中被过度加权。Dr.GRPO 则发现了 GRPO 中 length normalization 引入的 length bias 问题并通过移除这一归一化来修复。4、全局视角技术如何协同工作理解了各个组件之后让我们看看它们如何在一个完整的 Post-training pipeline 中协同工作。以当前主流的推理模型训练流程为例阶段一SFT 冷启动。使用高质量的指令跟随数据和推理数据包含 chain-of-thought对基座模型进行监督微调。这一步的目标是让模型学会基本的输出格式和推理模式。阶段二RL 推理训练RLVR。在数学、代码等可验证领域使用 GRPO或其改进版本 DAPO进行大规模 RL 训练。这一步是推理能力提升的核心。阶段三偏好对齐。使用 DPO 或 RLHF 对模型进行最终的偏好对齐确保模型的输出风格、安全性和有用性符合要求。阶段四拒绝采样蒸馏可选。用训练好的大模型生成高质量的推理数据蒸馏到更小的模型中。DeepSeek-R1 就是通过这种方式将推理能力蒸馏到 1.5B~70B 的小模型中。5、前沿方向2025-2026 年的新趋势5.1 Agentic RL从回答问题到完成任务传统的 RLHF/RLVR 训练的是单轮问答能力而 Agentic RL 则训练模型在多步骤任务中交替进行推理和工具调用。例如Search-R1 训练模型学会什么时候该搜索、搜索什么、如何利用搜索结果ReTool 训练模型学会在推理过程中调用计算器、代码解释器等工具。Agentic RL 面临的核心挑战包括多轮交互中的 credit assignment哪一步决策导致了最终的成功或失败、稀疏奖励只有任务完成时才有反馈、以及推理与工具使用之间的资源竞争。5.2 Reward Model 的演进Reward Model 正在从简单的标量打分模型演进为更复杂的形式Process Reward ModelPRM对推理的每一步进行评分而非只看最终答案Generative Reward Model 用 LLM 本身作为 judge 来评估回答质量Multi-objective Reward 同时优化多个维度准确性、安全性、简洁性等。5.3 Synthetic Data 的角色合成数据在 Post-training 中的重要性持续上升。当前的最佳实践是用强模型生成大量候选回答通过 verifier 筛选出正确的再用这些数据进行 SFT 或作为 RL 的 warm-up。这种 “生成-验证-训练” 的循环正在成为标准范式。6、总结与关键要点LLM Post-training 是一个快速演进的领域但其核心逻辑可以归纳为以下几点第一SFT 是基础但不够。SFT 教会模型输出的格式和风格但无法让模型学会超越训练数据的推理能力。对于对齐和推理我们需要更强大的训练信号。第二RL 是提升推理能力的关键。从 PPO 到 GRPORL 算法在不断简化和高效化。GRPO 去掉了 Critic 模型DAPO 进一步解决了熵坍塌等工程问题。DeepSeek-R1 证明了纯 RL 就能涌现推理能力。第三奖励信号的设计至关重要。从 RLHF人类反馈到 RLAIFAI 反馈再到 RLVR可验证奖励奖励信号的获取方式在不断演进。RLVR 在可验证领域数学、代码表现出色但如何将其扩展到开放域任务仍是开放问题。第四Online RL vs. Offline Preference Optimization 各有所长。DPO 等 offline 方法简单稳定适合偏好对齐PPO/GRPO 等 online 方法能从探索中学习更适合提升推理能力。实践中通常两者结合使用。第五Agentic RL 是下一个前沿。从单轮问答到多轮工具使用Post-training 正在向训练完整的智能体方向发展。最后近期科技圈传来重磅消息行业巨头英特尔宣布大规模裁员2万人传统技术岗位持续萎缩的同时另一番景象却在AI领域上演——AI相关技术岗正开启“疯狂扩招”模式据行业招聘数据显示具备3-5年大模型相关经验的开发者在大厂就能拿到50K×20薪的高薪待遇薪资差距肉眼可见业内资深HR预判不出1年“具备AI项目实战经验”将正式成为技术岗投递的硬性门槛。在行业迭代加速的当下“温水煮青蛙”式的等待只会让自己逐渐被淘汰与其被动应对不如主动出击抢先掌握AI大模型核心原理落地应用技术项目实操经验借行业风口实现职业翻盘深知技术人入门大模型时容易走弯路我特意整理了一套全网最全最细的大模型零基础学习礼包涵盖入门思维导图、经典书籍手册、从入门到进阶的实战视频、可直接运行的项目源码等核心内容。这份资料无需付费免费分享给所有想入局AI大模型的朋友扫码免费领取全部内容部分资料展示1、 AI大模型学习路线图2、全套AI大模型应用开发视频教程从入门到进阶这里都有跟着老师学习事半功倍。3、大模型学习书籍文档4、AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。5、大模型大厂面试真题整理了百度、阿里、字节等企业近三年的AI大模型岗位面试题涵盖基础理论、技术实操、项目经验等维度每道题都配有详细解析和答题思路帮你针对性提升面试竞争力。6、大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。学会后的收获• 基于大模型全栈工程实现前端、后端、产品经理、设计、数据分析等通过这门课可获得不同能力• 能够利用大模型解决相关实际项目需求大数据时代越来越多的企业和机构需要处理海量数据利用大模型技术可以更好地处理这些数据提高数据分析和决策的准确性。因此掌握大模型应用开发技能可以让程序员更好地应对实际项目需求• 基于大模型和企业数据AI应用开发实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能学会Fine-tuning垂直训练大模型数据准备、数据蒸馏、大模型部署一站式掌握• 能够完成时下热门大模型垂直领域模型训练能力提高程序员的编码能力大模型应用开发需要掌握机器学习算法、深度学习框架等技术这些技术的掌握可以提高程序员的编码能力和分析能力让程序员更加熟练地编写高质量的代码。扫码免费领取全部内容这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】