你正在交AI Swarm TaxStanford 研究戳破多 Agent 系统神话引言多 Agent 系统Multi-Agent Systems, MAS——比如 planner agents、角色扮演辩论、agent swarm——被广泛认为是解决复杂任务的更高级架构。各大 AI 公司都在推销agent orchestration方案仿佛更多 agent 就等于更好效果。但 Stanford 大学最新研究给这个热潮泼了盆冷水在相同计算预算下单一 Agent 大多数情况下表现更好。你可能正在为看起来更高级的架构支付一笔毫无意义的Swarm Tax。问题不公平的比较多 Agent 系统的隐秘优势Multi-agent frameworks 把任务拆分让多个模型在 partial contexts 上并行工作然后通过传递答案来协作。听起来很合理。但问题是这些系统通常消耗更多 tokens。更长的 reasoning traces多个 agent 之间的交互消息协调步骤的 overhead当一个 MAS 报告更高准确率时你很难判断这是架构设计得好还是单纯花了更多算力研究作者 Dat Tran 和 Douwe Kiela 说得很直接“A central point of our paper is that many comparisons between SAS and MAS are not apples-to-apples. MAS often get more effective test-time computation through extra calls, longer traces, or more coordination steps.”为什么之前的公平比较不够公平有些研究已经尝试在固定计算预算下比较但存在局限太宽泛没有区分不同 MAS 架构没有区分 prompt tokens 和 reasoning tokens没有深入分析为什么某个架构更好Stanford 的实验设计Thinking Token Budget真正公平的度量研究者引入了一个严格指标Thinking Token Budget。只计算用于中间推理的 tokens排除初始 prompt最终输出这样就能精确比较推理能力本身而不是被表面数据混淆。测试场景Multi-hop Reasoning他们选择了 multi-hop reasoning 任务——需要连接多个分散信息才能回答的问题。比如“某人 A 在公司 B 工作公司 B 位于城市 C城市 C 的人口是多少”这类任务需要跨多个跳跃推理正是 MAS 被认为擅长的地方。发现单一 Agent 更强实验结果颠覆直觉场景结果相同 thinking budgetSAS ≈ 或 MASSAS context 太长/corruptedMAS 有优势Gemini 2.5 SAS-L最佳 aggregate performance单一 Agent 在固定预算下产生最高准确率同时消耗更少 reasoning tokens。为什么单一 Agent 更高效Data Processing Inequality信息传递必然损失研究者用一个经典概念解释这个现象Data Processing Inequality数据处理不等式。核心逻辑信息在传递过程中会损失MAS 的架构决定了信息必须被多次传递、压缩、总结每次传递都有数据丢失风险单一 Agent 在一个连续 context 中推理避免了这种 fragmentation保留了任务的 richest representation。用大白话说五个 agent 互相传话不如一个人从头到尾想清楚。MAS 的真正价值场景研究承认 MAS 在某些场景确实有用“Multi-agent systems gain a competitive edge when a single agent’s context becomes too long or corrupted.”当单一 Agent 的 context overflowMAS 才能发挥价值。但这是边界情况不是常态。SAS-L一个简单但有效的改进研究者观察到单一 Agent 有时会过早放弃——thinking budget 还有剩余但模型已经停止推理了。他们提出的解决方案SAS-L (Single-Agent System with Longer Thinking)。核心思想不要一遇到复杂问题就跳到多 Agent先试试重新设计 prompt在给出最终答案前 1. 明确识别 ambiguities模糊点 2. 列出 candidate interpretations候选解释 3. 测试 alternatives替代方案 4. 用满你的 reasoning budget这个简单的改动可以在单一 Agent 内恢复协作的好处——让模型自己扮演多个角色而不是真的拆成多个 agent。效果搭配 Gemini 2.5 等模型SAS-L 产生了最佳 aggregate performance。工程实践建议何时用单一 Agent何时用多 Agent场景建议一般复杂任务先试 SAS-L用满 budgetcontext 超出限制128K考虑 MAS需要真正并行如多数据源同时处理MAS 可行需要角色分离planner executorMAS 可行单一模型能搞定别交 Swarm Tax如何判断是否在交 Swarm Tax计算 thinking tokens你的 MAS 比单一 Agent 多用了多少同等预算比较把 MAS 的 tokens 给单一 Agent效果如何信息传递次数每个 handoff 损失多少信息边际收益增加一个 agent准确率提升多少一个简单的 checklist[ ] thinking token budget 计算了吗 [ ] 同等预算下的基准测试做了吗 [ ] SAS-L 尝试过了吗 [ ] 信息传递 loss 评估了吗 [ ] MAS 的额外成本latency, complexity算进去了吗深层启示架构复杂度 ≠ 效果更好AI 领域有一种复杂迷信多 agent 单 agent多模型 ensemble 单模型多 step pipeline 单次推理Stanford 研究提醒我们这些看起来更好的架构可能只是浪费算力而没有真实收益。回归计算预算的本质真正的问题不是哪个架构更好而是在相同计算预算下哪个架构的信息效率最高MAS 的 overhead协调、传递、压缩本质上是在消费信息密度而不是创造它。一个类比想象你要写一个复杂方案MAS 方式让 5 个人各写一部分然后互相传阅、讨论、合并。听起来协作但每次传阅都丢失细节最终方案可能支离破碎。SAS 方式一个人从头到尾写完思路连贯逻辑完整。前者听起来高级但如果后者能搞定何必付协作税结语Stanford 的研究不是说 MAS 没用——它有用但有边界。核心教训先试 SAS-L给单一 Agent 充足的 thinking budget重新设计 prompt算清楚 Swarm TaxMAS 多花了多少 tokens换来了多少收益不要迷信复杂架构复杂度不等于效果更好下次有人推销multi-agent orchestration 平台先问一个问题“同等 thinking tokens 下单一 Agent 能做多少”如果答案是差不多那你可能在交一笔不必要的 Swarm Tax。参考文献Stanford University Research: Comparing Single-Agent vs Multi-Agent Systems under Equal Thinking Token BudgetsVentureBeat Analysis by Ben Dickson (April 22, 2026)关键词AI Agent, Multi-Agent Systems, Swarm Tax, Single Agent, Thinking Token Budget, Stanford Research, SAS-L, Agent Orchestration