最近 Qwen Pilot 团队一直在研究 RL 如何解锁复杂推理能力。翻遍数据后抓到了 3 个反直觉的发现1️⃣ RL 其实很“懒”策略演化极稀疏 在 98% 的生成步骤里模型没变RL 并没有重写基座它更像是个教练只在关键逻辑分叉口轻轻推一把。论文Sparse but Critical: A Token-Level Analysis of Distributional Shifts in RLVR Fine-Tuning of LLMs 链接https://arxiv.org/abs/2603.22446 (ICLR 2026)2️⃣ 方向比幅度重要别只盯着 KL 散度 追踪对数概率差 才能精准定位优化的“导航方向”。甚至不训练只在推理时增强关键 Token 的信号准确率就能原地起飞。论文On the Direction of RLVR Updates for LLM Reasoning: Identification and Exploitation 链接https://arxiv.org/abs/2603.22117 (ICLR 2026)3️⃣ “哎呀 (Oops)”时刻多于“啊哈 (Aha)”时刻在长序列推理中模型常常已经推导出了正确答案却由于冗余的自我反思而将其推翻。这种破坏性的 “Oops”时刻发生的频率比自我纠正的 “Aha”时刻高出 3 倍。 RLVR 的dark secret: qwen-pilot.notion.site/rlvr-secrets罪魁祸首是因为当前主流的基于结果奖励ORM的 GRPO 训练通常将全局奖励均匀分配给所有 token这种粗粒度分配导致模型无法区分关键逻辑节点与普通 token进而陷入思维链“长度停滞”的上限。为此阿里通义实验室 Qwen Pilot 团队提出的核心算法 FIPO在策略更新中引入了折扣的 Future-KL 散度旨在突破大语言模型在复杂推理中的性能瓶颈。它通过量化当前 token 对后续推理轨迹的因果影响构建了一种密集优势dense advantage机制实现了精确到 token 级别的奖励重加权。像手术刀一样精准强化有效思考掐掉带偏节奏的废话。论文FIPO: Eliciting Deep Reasoning with Future-KL Influenced Policy Optimization 链接https://arxiv.org/abs/2603.19835 代码https://github.com/qwenpilot/FIPO实验表明基于 Qwen2.5-32BFIPO 成功将平均思维链CoT长度从约 4,000 扩展至 10,000 token 以上。路子走对了模型确实写得越长、准头越高。在 AIME 2024 测试中其 Pass1 准确率达到 58.0%不仅远超 DAPO 基线 (50.0%)也击败了同等规模的 DeepSeek-R1-Zero-Math-32B 和 o1-mini。这充分证明了细粒度奖励信号在激发大模型长程推理潜力中的决定性作用。4月11日周六上午10点#青稞Talk 第119期阿里通义实验室 Qwen Pilot 团队实习生、达特茅斯学院博士生马驰宇将直播分享《FIPO Future-KL突破大语言模型在复杂推理中的性能瓶颈》。分享嘉宾马驰宇达特茅斯学院计算机科学在读博士 目前在阿里通义实验室 Qwen Pilot 团队实习。研究重心是大型语言模型的大规模后训练Large-scale Post-training专注于设计强化学习算法以激发和增强模型的复杂推理能力。在早期探索了视觉模型可解释性与 LLM 评判框架后目前的成果主要聚焦于 LLM 深度推理优化包括提出 FIPO 算法打破传统基于 GRPO 方法的性能上限并已在 NeurIPS、ICLR、ACL、EMNLP 等顶级会议发表多篇学术论文。主题提纲FIPO Future-KL突破大语言模型在复杂推理中的性能瓶颈1、RL 训练的三个“反直觉”冷知识- RL 其实很“懒”大语言模型的“特修斯之船”- “方向”胜过“幅度”Δlog p 是真正的罗盘- “Oops Moment” 时刻的警示并非所有反思都是进化2、FIPO引入Future-KL建立“Token 级别”的密集监督信号3、性能验证 AMA Ask Me Anything直播时间4月11日周六10:00 - 11:00如何观看Talk 将在青稞社区【视频号青稞 AI、Bilibili青稞 AI】上进行进行直播欢迎预约观看Bilibili 直播间https://live.bilibili.com/32145701