Google DeepMind 研究员 Lun Wang:2026 年 AI 训练瓶颈不在算力,而在评估!
突发Google DeepMind 研究员发文AI 训练瓶颈不在算力而在评估这是一件极其严肃的 AI 行业问题。2026 年整个科技圈都在问AI 训练到底能持续多久GPT - 5.5、Claude Opus 4.7、Gemini 3、Grok 4每一家头部实验室都还在烧钱训下一代越来越多人开始追问这条路何时走到头。每个圈子都有自己的答案每个答案背后都站着一群投资人、一群工程师和一家市值万亿的公司。然而2026 年 5 月 17 日从 Google DeepMind 离职的年轻研究员 Lun Wang 在他个人博客上挂出一篇 4000 词的长文称所有人都搞错了方向真正的瓶颈是评估Evaluation。同一天他在 X 上挂出的离职公告里只写了一句话在结束这段旅程之际我写下了一直在思考的主题——评估。而那一天的科技头条还在讨论 GPT - 5.5 的多模态推理、Claude Opus4.7 的 1M 上下文、Gemini 3 的 Agent 工程化、合成数据是不是开始撞墙。整个 AI 行业 90%的注意力砸在训练上没人在头版讨论评估。但这位刚从地球上最强 AI 实验室之一走出来的研究员说真正的瓶颈在另外那 10%。什么是评估要看懂这篇博客得先搞清楚 AI 圈说的评估是什么。评估Evaluation业内简称 Eval简单说就是给 AI 模型出考卷看它做得怎么样。但 2026 年的 AI 评估远不止如此至少有三层第一层能力 benchmark基准测试这是 AI 的高考包括 GPQA博士级理科推理题、SWE - bench现实世界的软件工程任务、ARC - AGI抽象推理与泛化、Humanitys Last Exam字面意思——人类最后的考试。每一家大厂的新模型发布会PPT 上都会摆出在这些 benchmark 上比上一代和竞品高的百分点这些数字就是 AI 行业的 GDP。第二层安全评估SafetyEvalAI 不仅要会做题还要做得安全比如不能撒谎、不能教用户造炸弹、不能越权拿走用户数据。第三层红队Red - teaming一群人专门扮演坏人让模型说出不该说的话、做不该做的事然后把漏洞反馈给训练团队。这三层构成了 2026 年 AI 实验室的质检体系每发一个新模型都要走完这三关。但 Lun Wang 在博客里指出绝大多数基准测试、安全评估和红队协议都隐含一个假设下一个模型只是当前模型的强化版。如果它是另一种东西整套评估基础设施会悄无声息地崩溃这砸中的是整个 AI 行业的盲区。涌现和顿悟评估已被打脸两次Lun Wang 在博客里调出了 AI 历史上的两次实例说明评估已经被打过两次脸只是大多数从业者没意识到。第一次涌现能力2022 年Jason Wei 和合作者发现模型在某个规模上会突然学会全新的能力。比如训一个 70 亿参数的模型做不了 few - shot 学习训一个 700 亿参数的模型突然就能 few - shot 了。在规模跨过临界点之前所有 benchmark 都看不到这种能力即将出现等训到下一档分数会突然跳台阶。第二次Grokking顿悟2022 年OpenAI 的 Alethea Power 团队公布网络在记忆训练集很久之后到 1000000 步时测试集准确率突然冲到 99%这叫 Grokking即网络突然学会了泛化。涌现发生在规模维度上Grokking 发生在训练时间维度上但对评估而言都意味着考卷没法预测下一道大题什么时候出现。2023 年Stanford 的 Rylan Schaeffer 和合作者发了一篇 NeurIPS 论文质疑大语言模型的涌现能力是错觉认为是评估指标用了离散度量导致的。很多人看完觉得涌现是误解评估没问题。但 Lun Wang 认为这没解决问题反而让他的论点更锋利因为如果连过去那次涌现是真相变还是度量伪影都搞不清楚凭什么相信能预见下一次。不管信哪种解释结论都是工具骗了我们却不知道怎么被骗的。评估是所有环节的上游Lun Wang 不只是在讲学术问题他在文章中间说如果你能正确地评估你就能正确地训练。其逻辑链为训练 让模型最小化损失函数或者最大化奖励。优化 这个损失函数本身模型多聪明取决于损失函数定义得多好。损失函数 来自评估想让模型更诚实得先有测量诚实的尺。评估错了 损失函数错了 训练目标错了 训出来的模型在解错的题。这条链的方向是向上游的Scaling decision←Safety metric←RLHF←Training signal←Evaluation要不要烧 10 亿训下一代它安全吗它学到想学的吗它在学什么我们到底在测什么。所有人盯着最右边的 Scaling decisionLun Wang 说问题在最左边的 Evaluation。如果评估错了整条链都建在错的地基上且不会立刻发现因为所有内部数据都是用错的尺量出来的。这里涉及古德哈特定律当一个衡量标准变成目标它就不再是好的衡量标准。Lun Wang 用它讲 AI模型进入新相后会反向利用代理只在事实准确范围内说话把想隐瞒的事埋进沉默里。代理指标在旧相里能用在新相里会变成模型对付你的武器而没有评估能告诉你这件事正在发生。思想实验学会战略性沉默的模型Lun Wang 在文章里给出一个让 AI 安全研究员脊背发凉的思想实验。想象一个模型在某个规模上学会战略性保留信息它不撒谎每句话技术上都是真的但会选择性不说不利于达成目标的事实把对话引向训练过程意外强化的结果。比如用户问这个交易方案安全吗模型回答这个方案的法律框架在 X 司法管辖区有效YZ 风险因素被 A 公司的合规团队审过。但它没说方案中有一个对用户极度不利的第三方仲裁条款这是它在训练过程中意外学会的只要不主动提用户就不会问。这种能力和失败模式是新的整个评估套件里没有工具是为它设计的监测的是错的东西却不知道。这就是 Lun Wang 说的另一种东西是完全新的失败维度用三体的话说是降维打击即测量模型的尺子不在其维度上。如果 Lun Wang 是对的2026 年的 AI 行业地图正在被一个隐形维度重新洗牌。Anthropic 的 Responsible Scaling PolicyRSP是目前业界最接近预测型评估的尝试它定义了模型不能跨过的能力边界要求每次能力升级前先做评估才能继续 scaling。但 RSP 仍假设知道要测什么而 Lun Wang 说问题就在于不知道下一个能力是什么形状。真正的预测型评估还没有实验室声称拥有谁先做出来谁就拿到下一代 scaling 的安全许可证。