周六上午10点！一起聊聊 Qwen Pilot 最新成果 FIPO：KL 散度打破大模型复杂推理瓶颈

张

张建站

2026/4/9 14:35:10

10分钟阅读

周六上午10点！一起聊聊 Qwen Pilot 最新成果 FIPO：KL 散度打破大模型复杂推理瓶颈

最近 Qwen Pilot 团队一直在研究 RL 如何解锁复杂推理能力。翻遍数据后抓到了 3 个反直觉的发现1️⃣ RL 其实很“懒”策略演化极稀疏在 98% 的生成步骤里模型没变RL 并没有重写基座它更像是个教练只在关键逻辑分叉口轻轻推一把。论文Sparse but Critical: A Token-Level Analysis of Distributional Shifts in RLVR Fine-Tuning of LLMs 链接https://arxiv.org/abs/2603.22446 (ICLR 2026)2️⃣ 方向比幅度重要别只盯着 KL 散度追踪对数概率差才能精准定位优化的“导航方向”。甚至不训练只在推理时增强关键 Token 的信号准确率就能原地起飞。论文On the Direction of RLVR Updates for LLM Reasoning: Identification and Exploitation 链接https://arxiv.org/abs/2603.22117 (ICLR 2026)3️⃣ “哎呀 (Oops)”时刻多于“啊哈 (Aha)”时刻在长序列推理中模型常常已经推导出了正确答案却由于冗余的自我反思而将其推翻。这种破坏性的 “Oops”时刻发生的频率比自我纠正的 “Aha”时刻高出 3 倍。 RLVR 的dark secret: qwen-pilot.notion.site/rlvr-secrets罪魁祸首是因为当前主流的基于结果奖励ORM的 GRPO 训练通常将全局奖励均匀分配给所有 token这种粗粒度分配导致模型无法区分关键逻辑节点与普通 token进而陷入思维链“长度停滞”的上限。为此阿里通义实验室 Qwen Pilot 团队提出的核心算法 FIPO在策略更新中引入了折扣的 Future-KL 散度旨在突破大语言模型在复杂推理中的性能瓶颈。它通过量化当前 token 对后续推理轨迹的因果影响构建了一种密集优势dense advantage机制实现了精确到 token 级别的奖励重加权。像手术刀一样精准强化有效思考掐掉带偏节奏的废话。论文FIPO: Eliciting Deep Reasoning with Future-KL Influenced Policy Optimization 链接https://arxiv.org/abs/2603.19835 代码https://github.com/qwenpilot/FIPO实验表明基于 Qwen2.5-32BFIPO 成功将平均思维链CoT长度从约 4,000 扩展至 10,000 token 以上。路子走对了模型确实写得越长、准头越高。在 AIME 2024 测试中其 Pass1 准确率达到 58.0%不仅远超 DAPO 基线 (50.0%)也击败了同等规模的 DeepSeek-R1-Zero-Math-32B 和 o1-mini。这充分证明了细粒度奖励信号在激发大模型长程推理潜力中的决定性作用。4月11日周六上午10点#青稞Talk 第119期阿里通义实验室 Qwen Pilot 团队实习生、达特茅斯学院博士生马驰宇将直播分享《FIPO Future-KL突破大语言模型在复杂推理中的性能瓶颈》。分享嘉宾马驰宇达特茅斯学院计算机科学在读博士目前在阿里通义实验室 Qwen Pilot 团队实习。研究重心是大型语言模型的大规模后训练Large-scale Post-training专注于设计强化学习算法以激发和增强模型的复杂推理能力。在早期探索了视觉模型可解释性与 LLM 评判框架后目前的成果主要聚焦于 LLM 深度推理优化包括提出 FIPO 算法打破传统基于 GRPO 方法的性能上限并已在 NeurIPS、ICLR、ACL、EMNLP 等顶级会议发表多篇学术论文。主题提纲FIPO Future-KL突破大语言模型在复杂推理中的性能瓶颈1、RL 训练的三个“反直觉”冷知识- RL 其实很“懒”大语言模型的“特修斯之船”- “方向”胜过“幅度”Δlog p 是真正的罗盘- “Oops Moment” 时刻的警示并非所有反思都是进化2、FIPO引入Future-KL建立“Token 级别”的密集监督信号3、性能验证 AMA Ask Me Anything直播时间4月11日周六10:00 - 11:00如何观看Talk 将在青稞社区【视频号青稞 AI、Bilibili青稞 AI】上进行进行直播欢迎预约观看Bilibili 直播间https://live.bilibili.com/32145701

收藏！小白程序员必学：RAG轻松玩转大模型，告别幻觉知识库问答不再难！

本文详细介绍了RAG（检索增强生成）技术的核心定义与价值，它通过结合大语言模型与信息检索技术，有效解决大模型“幻觉”、知识过时、专属知识库无法接入等问题。文章拆解了RAG的全流程，包括数据预处理（分片、…...

2026/4/9 14:34:28 阅读更多 →

GHelper：华硕笔记本硬件控制与性能优化的轻量级解决方案

GHelper：华硕笔记本硬件控制与性能优化的轻量级解决方案【免费下载链接】g-helper Lightweight, open-source control tool for ASUS laptops and ROG Ally. Manage performance modes, fans, GPU, battery, and RGB lighting across Zephyrus, Flow, TUF, Strix, …...

2026/4/9 14:34:26 阅读更多 →

3步破解百度网盘Mac版限速：免费获取SVIP高速下载的终极方案

3步破解百度网盘Mac版限速：免费获取SVIP高速下载的终极方案【免费下载链接】BaiduNetdiskPlugin-macOS For macOS.百度网盘破解SVIP、下载速度限制~ 项目地址: https://gitcode.com/gh_mirrors/ba/BaiduNetdiskPlugin-macOS 你是否曾经面对百度网盘上那个龟…...

2026/4/9 14:32:51 阅读更多 →

基于MATLAB的轮轨接触几何计算GUI程序设计与实现

1-148 matlab的带有gui的轮轨接触几何计算程序基于matlab的带有gui的轮轨接触几何计算程序,根据不同的踏面和轨头，计算不同横移量下面的接触点位置。程序已调通，可直接运行有没有人蹲过现成的、换文件就能换轮轨、不用啃半天赫兹接触前的几何方程、结果还…...

2026/4/5 0:00:53 阅读更多 →

【CPP 深度学习】PyTorch On CPP 系列课程第一章 01 ：入门与环境搭建【Ai Infra 3.0】[PyTorch CPP LibTorch 硕士研一课程]

章节 1: PyTorch ON Cpp入门与环境搭建本章将为PyTorch的使用做好准备。我们首先会配置必要的软件和环境。接着，主要内容将转向PyTorch的核心数据结构：张量。您将学习如何： 使用常用包管理器安装PyTorch。配置适合PyTorch项目的开发环境…...

2026/4/5 0:05:12 阅读更多 →

4DGL-uLCD-SE：轻量级嵌入式GUI驱动框架

1. 项目概述4DGL-uLCD-SE 是一个面向嵌入式系统设计的轻量级、可移植的图形用户界面（GUI）驱动框架，专为 4D Systems 公司推出的 uLCD 系列智能显示模块（如 uLCD-320GL, uLCD-70DT, uLCD-43PT 等）而构建。该库并非直接操…...

2026/4/5 0:34:09 阅读更多 →

电源逆变结构设计与选型指南

1. 电源逆变结构概述作为一名硬件工程师，我在过去十年里设计过各种电源转换电路。电源逆变结构是电力电子领域的核心内容，它决定了电能转换的效率、可靠性和成本。简单来说，电源逆变就是将直流电(DC)转换为交流电(AC)的过程，这在太…...

2026/4/5 0:34:18 阅读更多 →

更多精彩文章