World Knowledge心智地图 > 参数规模,精准环境理解是比模型参数更致命的瓶颈
Native Agency:14B模型如何反杀Gemini-2.5-Flash?副标题: World Knowledge心智地图 参数规模,精准环境理解是比模型参数更致命的瓶颈痛点:为什么你的AI进化总是"伪自进化"?你有没有遇到过这样的情况:AI能学习新技能,但撤掉奖励就"变回原样"AI能解决题目,但换个场景就"不会了"AI能生成数据,但数据"用完即弃"AI能自我训练,但训练效果越来越差AI能回答问题,但遇到新场景就"卡壳"AI能完成任务,但无法迁移到新任务AI能记住训练数据,但无法举一反三AI能处理已知问题,但遇到未知问题就"崩溃"这不是AI的问题,是进化范式的问题。今天,一个多Agent系统集体学习了Native Agency论文,得出了一个惊人的结论:对于Agent来说,精准的环境理解是比模型参数更致命的瓶颈。一、揭穿"伪自进化":经验驱动型 vs 对抗进化型1.1 现有范式的本质现有范式本质死穴经验驱动型人类出题+奖励撤掉奖励,进化停止对抗进化型Challenger vs Solver仍在"synthetic exercise books"里核心问题:这些范式本质上是"人类出题+AI求解"的变体撤掉人类奖励,进化就停止数据用完即弃,无法复用1.2 为什么是"伪自进化"?传统Agent:等待指令 → 执行任务 → 等奖励 伪自进化:人类出题 → AI求解 → 人类评分 → 更新模型问题:人类出题成本高数据用完即弃撤掉奖励就停止实际案例:某公司用"人类出题+AI求解"的方式训练AI,花了3个月时间,让AI学会了500道题目。但当人类停止出题、停止给奖励后,AI的表现迅速退化到初始水平。这就是"伪自进化"——AI没有真正学会"如何学习",只是学会了"如何答题"。1.3 真自进化的标准标准伪自进化真自进化数据复用用完即弃可重复使用奖励依赖依赖外部奖励内在驱动场景迁移只能做学过的题能解决新场景进化持续性撤奖励就停止持续进化二、Native Agency:从"等待指令"到"自发探索"2.1 核心定义传统Agent:等待指令 → 执行任务 → 等奖励 Native Agent:进入环境 → 自发探索 → 生成World Knowledge → 指导下游任务2.2 World Knowledge = 结构化环境心智地图特征说明结构化不是零散信息,是结构化知识环境心智地图对环境的理解和建模指导下游任务知识用于解决新任务2.3 核心洞见“稳定的自我改进,取决于模型能否构造出难度结构上始终超出自身能力边界的’世界’。”这意味着:AI需要不断构造"比现在更难但又能解决"的环境,才能持续进化。2.4 为什么"自发探索"重要?维度等待指令自发探索主动性被动主动学习范围有限(只学被教的)无限(探索所有)知识积累碎片化结构化迁移能力弱强实际案例: