这项由剑桥大学、帝国理工学院和麻省理工学院MIT联合开展的研究以预印本形式发布于2026年4月论文编号为arXiv:2604.06427标题为《The Depth Ceiling: On the Limits of Large Language Models in Discovering Latent Planning》。对于关注人工智能安全与可解释性的读者来说这篇论文触及了一个极为关键却长期被忽视的问题当我们要求AI直接给出答案而不是一步步写出思考过程时它的大脑里究竟能走多远**一、一个关乎AI安全的核心问题**你也许用过ChatGPT或类似的AI助手发现只要让它先想想再回答效果就会好很多。这种边写边想的方式研究者称之为思维链Chain of Thought简称CoT。道理很直白当你让AI把中间推理步骤都写出来不仅最终答案更准确更重要的是你能看到它在想什么——就像老师检查学生的解题过程而不只是看最后答案对不对。这种看得见的思考过程对AI安全来说意义重大。人类监督者可以通过阅读AI写下的推理轨迹来判断它是否有异常行为或危险倾向。但这种监督方式有一个隐患万一AI根本不需要写出思考步骤也能在脑子里悄悄完成复杂推理那我们看到的那些文字就不再是真实思维的窗口了。换句话说如果AI能把整个下棋策略全部藏在一次运算里我们所谓的过程监控就成了摆设。这就是这项研究要回答的核心问题AI的隐藏推理能有多深它能在不写一个字的情况下在内部完成多少步骤的推理随着模型越来越大这种隐藏推理能力会不会无限扩展从而让思维链监控失去意义**二、用迷宫游戏来测量AI的隐藏推理深度**研究团队设计了一个极其巧妙的测试方式可以用一个简单的寻路游戏来理解。设想有一棵星形树中间有一个起点从起点出发分出若干条等长的树枝每条树枝末端有一个终点。现在告诉AI起点在哪里目标终点在哪里整棵树的结构是什么——但所有节点的编号都被随机打乱了顺序也被随机排列。AI的任务只有一个告诉我从起点走出去第一步应该迈向哪个节点这个游戏设计得相当狡猾。由于所有树枝长度完全相同AI没有任何捷径可以走——它不能靠哪条路更短来判断也不能靠离目标更近来猜测唯一的办法是真正地想清楚从目标节点倒推一步一步地沿着路径往回追溯直到找到起点的直接邻居。这就像你在一个没有任何地标的迷宫里只知道出口在哪必须从出口反向摸回起点附近的第一个岔路口。树枝的长度研究中用字母m表示直接决定了AI需要在脑子里走多少步。树枝长度是3就需要3步隐藏推理长度是5就需要5步以此类推。树枝数量字母k则决定了任务有多宽——分叉越多每次选错的代价越大。通过精确控制这两个参数研究团队可以像调节旋钮一样精确控制测试的难度同时明确知道完成任务理论上需要几步思考。最关键的一点是AI只被告知最终答案是否正确中间过程完全没有任何指导。这就像让一个学生做题老师只说对或错从不告诉任何解题思路。在这种条件下AI能自己摸索出多步骤的解题策略吗**三、从婴儿级小模型到旗舰级大模型统统被一堵墙拦住**研究团队测试了一系列规模差异巨大的模型构成了一个完整的能力谱系。规模最小的是一个从零开始训练的微型Transformer模型只有160万个参数——这在AI界几乎算是玩具级别体量只有GPT-4o的几十万分之一。研究人员选择这个极小模型的理由很充分它没有任何预训练知识所有能力都是从这道题目中从零习得的因此最能纯粹地反映发现隐藏推理策略的本质难度。测试结果打破了之前学界的悲观预期。在此之前有研究认为标准的训练方式即只根据最终答案给反馈的下一词预测训练根本无法让模型学会真正的隐藏规划策略。然而这个只有160万参数的小模型确实在3步的任务上学会了一套有效的规划策略在多种树枝数量配置下都能表现出远超随机猜测的准确率。然而当树枝长度从3增加到4情况就发生了戏剧性的转变——性能直接从近乎完美跌落到与随机猜测无异。更令人困惑的是研究团队尝试把这个小模型做得更深从8层增加到16层、32层或者增加注意力头数量或者扩大隐藏维度全部徒劳无功深度瓶颈依然牢不可动地卡在第4步。接下来研究团队引入了规模大得多的开源语言模型Qwen 2.5系列7B和32B参数以及Qwen 3系列8B和32B参数。这些模型在训练之前已经在海量文本上预训练具备丰富的世界知识。针对星形图寻路任务研究团队对它们进行了专项微调——给出大量训练样本让模型通过只看最终答案是否正确的反馈来自我提升。结果揭示了一个规律规模更大的模型确实在广度上表现更强。那个小Transformer在树枝数量达到10的时候会完全失去方向而7B级别的Qwen模型能轻松应对10条树枝的情形。但在深度上进步却极为有限——7B的Qwen 2.5同样在第4步遭遇了完全的失败与160万参数的小模型处于同一水平线上。32B的模型们将上限推进到了第5步GPT-4o经过微调后也达到了第5步。随后研究团队以零样本和少样本提示的方式测试了当时最新的GPT-5.4发现它的上限大约在第7步——但即便这已经是目前测试到的最高成绩仍然是一道相当浅的天花板。最触目惊心的对比是从160万参数的玩具模型一路扩展到GPT-4o这样的旗舰级大模型隐藏推理深度只从3步增加到了5步净增长仅仅2步。这两种模型在算力消耗、训练成本、参数数量上相差了何止千倍但在发现隐藏推理策略的深度这个维度上差距小到令人瞠目结舌。**四、AI的大脑在干什么偷窥它的注意力地图**为了弄清楚模型内部究竟发生了什么研究团队对那个从零训练的小Transformer做了一次内窥镜检查——可视化它的注意力分布。所谓注意力可以类比为人在阅读时目光的停留。当你解一道题时有些文字是你反复扫视的关键信息有些则是你忽略的背景。Transformer模型的每一层都有类似的机制在处理问题时会对输入中的不同部分分配不同的关注权重。研究团队提出了一个叫回溯比率的指标专门衡量模型把多少注意力集中在从目标到起点的那条路径上。如果模型只是在漫无目的地猜这个比率应该接近均匀分布如果模型真的在从目标倒推这个比率应该明显偏高。观察结果清晰地印证了这一猜想。对于那些模型成功解决的配置比如树枝数4或5深度3步注意力地图显示出了一个非常有规律的倒追模式在较浅的网络层模型的注意力主要集中在目标节点随着层数加深注意力逐渐沿着路径向起点方向移动就像侦探从案发现场一步步追溯到嫌疑人的行踪一样。这种层与层之间有序传递、逐渐回溯的模式正是从目标反向追踪到起点策略的直接体现。相对地对于那些模型失败的配置注意力地图完全是一片混乱看不出任何有意义的规律。这说明失败的原因不是模型在用一个错误的策略而是根本没有找到任何有效的策略。这个发现还解释了为什么树枝数量为2时情况有些特殊。当只有两条路时模型根本不需要从目标倒推——它可以随便选一条路如果走不到目标就选另一条。这种排除法不需要真正的多步规划所以在这个特殊情形下注意力分布虽然均匀但模型仍然能正确作答。**五、发现策略是一关驾驭策略又是另一关**这项研究还揭示了一个微妙而重要的区分类比起来就是学会一道菜的方法和实际烹饪时能把这道菜做好之间的差距。研究团队对每个开源模型都做了一个额外测试选出该模型在训练中能成功掌握策略的最复杂配置然后用这个配置下训练好的模型去挑战它从未接触过的更深层次任务——比如训练时只见过5步的题目测试时给它6步、7步乃至8步的题目。这个测试的结果出人意料地乐观。绝大多数模型在测试深度略超过训练深度时仍然能维持相当不错的表现性能是随着深度增加而逐渐衰减的而不是像训练阶段失败那样的断崖式崩溃。Qwen 3-32B在超出训练深度3步的范围内仍能显著超越随机猜测GPT-4o甚至能超出训练深度4步。这意味着一旦模型成功地在训练中内化了从目标反向追踪这种策略它就能把这个策略延伸应用到更长的路径上。这种泛化能力和发现能力之间的差距构成了整篇论文最有洞察价值的发现之一。模型在训练时发现不了6步、7步、8步策略但若先在5步任务上学会了策略它就能在测试时自己延伸到8步。策略的发现是瓶颈策略的执行则更有弹性。就好比一个人学会了从结论反推前提的逻辑方法他能在考场上把这种方法运用到更复杂的题目上但如果他根本没有经历过足够简单的入门题来学会这种方法就永远迈不过这个门槛。为了进一步理解失败的性质研究团队还详细分析了模型出错时的错误类型。他们把错误分为三类模型预测了起点的直接邻居但选错了树枝1跳邻居错误模型选对了树枝但没走到正确位置路径内错误以及完全偏离路径外错误。检测结果显示了一个惊人的模式在那些超出模型泛化能力的深度配置下错误中路径内错误的比例极高——对于Qwen 2.5-7B来说95%的错误都属于这一类。也就是说模型知道应该走哪条树枝也确实走上了正确的方向但在倒推的过程中数不到头在某一步上卡住了。这进一步印证了泛化天花板的存在策略是对的执行力撑不到终点。**六、只要写出来二十步都不在话下**研究的最后一部分做了一个鲜明的对照实验目的是验证这些任务本身真的很难吗还是只是隐藏推理这种方式很难答案非常清晰。研究团队让模型不再只输出最终答案而是把整个从目标节点一步步倒推回起点的过程都写出来作为训练时的目标输出。换句话说让AI做一道展示解题过程的题而不是只写答案的题。在这种显式思维链的训练设置下所有被测试的语言模型——包括Qwen 2.5系列和Qwen 3系列——只需要大约20步训练就完全收敛对深度为20步的任务也能保持接近完美的准确率。同样的任务在隐藏推理模式下根本无法学会在显式推理模式下却轻而易举——这有力地说明天花板的根源不在任务本身而在于不写过程只看结果的训练方式给模型发出的信号太稀疏、太微弱无法引导它发现并固化多步骤的内部推理策略。研究团队还尝试了一种更有趣的渐进内化方案先让模型学会完整的显式推理链然后每次把推理链的第一个词从输出里删掉强迫模型把那一步吞进脑子里如此循环逐步把整个推理过程压缩成隐藏状态。结果是通过这种方式那个只有160万参数的小模型确实能够在简单的2条树枝配置下完成深达6步的隐藏推理——远超它在直接训练下的3步上限。但一旦树枝数量增加这种方式同样会遇到瓶颈因为模型本身的储存容量成了新的限制。**七、这对AI安全意味着什么**这项研究最深远的意义在于它与AI安全领域的直接关联。当前监控AI行为的一种重要思路是思维链监控让AI把推理过程写出来然后让人类或另一个AI来审查这些推理步骤看是否有异常或危险的意图。这种方法的前提假设是AI如果想完成复杂的推理或规划必须把过程写出来——否则它没有足够的工作空间来完成复杂计算。这项研究的发现为这个假设提供了来自实验的支撑。在精心设计的测试中大型语言模型在隐藏推理深度上存在一个相对有限且难以通过单纯扩大规模来突破的天花板。当任务需要真正复杂的多步骤推理时模型确实倾向于依赖外化的思考链而不是能够完全在脑子里默默完成。当然研究团队也非常谨慎地指出这个结论的适用范围。星形图寻路是一个经过精心设计以消除所有捷径的纯粹推理任务而现实世界中的复杂任务往往包含更多的局部线索和启发式信息这些可能会改变结论。此外目前最强大的闭源模型如今天的最新版本无法被研究团队直接微调对它们的评估只能通过提示来进行这在方法上有一定局限性。与此同时来自其他研究的证据也与这个发现方向一致在需要隐含的两步推理比如A认识BB认识C所以A可能认识C这种关系传递的任务上语言模型也表现出明显的局限性。这提示天花板现象可能不只出现在图寻路任务中而是一种更普遍的隐藏多步推理局限。归根结底这项研究传递的信息是在今天的技术水平下如果一项任务真的需要多步骤的精密推理语言模型很可能必须把过程写出来才能完成——无论是被训练成这样做还是被提示去这样做。这既是一个技术上的局限也恰好是一个对于人类监控AI行为来说幸运的保障。思维链监控作为一种安全手段因此具有相当的现实基础而不只是一种美好愿望。当然没有任何一项研究能盖棺论定。随着训练方法的革新、架构的进化以及更多针对隐藏推理能力的专项优化这个天花板未来会不会被打破还需要持续的观察和研究。这正是研究团队在论文末尾呼吁的弄清楚潜在推理能力在不同任务领域的边界将是建立对思维链监控信任的关键方向。说到底这项研究做了一件很有意思的事它把AI能不能背着我们偷偷想事情这个原本模糊的问题变成了一个可以用实验精确测量的问题并且给出了当前最好的答案——能但没你以为的那么厉害而且规模大小对这件事的改善相当有限。这不是一个让人彻底放心的结论但至少比完全不知道要好得多。对于关心AI未来走向的普通读者来说这项研究就像给AI大脑装了一把刻度尺让我们对它的边界有了更清晰的感知。对原论文感兴趣的读者可以通过arXiv编号2604.06427找到完整版本。---QAQ1什么是思维链监控为什么它对AI安全很重要A思维链监控是一种AI安全方法要求AI在给出答案时写出完整的推理步骤让人类或监控系统能够审查AI在想什么。它的重要性在于如果AI只给出最终答案外界无法判断它的推理过程是否合理或存在危险意图但如果AI把每一步思考都明确写出来监控者就有机会在问题发生前介入。这项研究的意义正在于证明对于复杂任务AI确实很难在不写出过程的情况下独立完成推理从而为思维链监控的有效性提供了实验依据。Q2星形图寻路任务和现实中的AI推理任务有什么关系A星形图寻路是一个经过精心设计的纯推理测试它消除了所有可以走捷径的线索强迫模型进行真正的多步骤逻辑推理。这种设计的价值在于它可以精确控制推理深度从而像用刻度尺量长度一样量化AI的隐藏推理能力。现实任务如代码生成、数学证明往往含有更多辅助信息难度结构更复杂但从这个纯净测试中得到的结论——即隐藏推理深度存在上限且难以靠扩大规模突破——为理解AI的推理本质提供了基准参考。Q3把语言模型规模扩大十倍隐藏推理深度会大幅提升吗A根据这项研究答案是否定的。从只有160万参数的小模型一直扩展到参数量大几十万倍的GPT-4o隐藏推理发现深度只从3步提升到了5步净增长仅2步。研究者发现扩大模型规模主要改善的是处理更多分支广度的能力而不是处理更多推理步骤深度的能力。规模扩大带来的边际收益随着深度增加而急剧递减说明这个瓶颈有着更深层的结构性原因不能单靠把模型做得更大来解决。