英伟达:离线策略蒸馏Lightning OPD
标题Lightning OPD: Efficient Post-Training for Large Reasoning Models with Offline On-Policy Distillation来源arXiv, 2604.13010v1️文章简介研究问题如何在消除实时教师推理服务器带来的巨大基础设施开销的同时保持在线策略蒸馏OPD的高效性与高性能主要贡献论文发现了“教师一致性”这一关键条件并据此提出了 Lightning OPD 框架通过预计算教师概率实现了无需实时服务器的离线训练在大幅降低算力成本的同时达到了最先进性能。重点思路提出教师一致性原则指出监督微调SFT阶段生成数据的教师模型必须与 OPD 阶段提供分布参考的教师模型完全一致否则会导致不可消除的梯度偏差。设计 Lightning OPD 两阶段流程首先在 SFT 阶段利用指定教师生成轨迹并微调基座模型得到参考策略随后在预处理阶段仅对该参考策略的 rollout 进行一次性的教师对数概率计算并存储。构建离线训练目标在正式训练学生模型时直接读取预存的教师概率值完全解耦了训练过程与实时教师推理服务将在线采样分布固定为 SFT 后的参考分布。理论证明在满足教师一致性前提下该离线方法与标准在线 OPD 共享相同的最优解且梯度差异有界同时固定的 Rollout 分布引入了隐式正则化效应以抑制策略漂移。分析总结实验表明违反教师一致性会导致在线和离线 OPD 均收敛至次优固定点且在离线设置下由于分布不匹配叠加性能下降更为显著。在数学推理和代码生成任务上Lightning OPD 的性能持平甚至略优于标准 OPD例如在 AIME 2024 基准上 Qwen3-8B 模型达到了 69.9% 的通过率。该方法显著提升了训练效率相比标准 OPD 实现了 4.0 倍的加速将 8B 模型的训练成本从 120 GPU 小时降低至 30 GPU 小时且无需维护高并发的教师服务集群。训练动态分析显示学生策略在整个训练过程中始终紧密围绕参考分布重要性权重的均值和方差保持稳定验证了隐式正则化的有效性。个人观点论文识别出被以往研究忽视的“教师一致性”理论约束将原本被视为必须的在线交互转化为一次性的离线预处理。