观点以OpenClaw发布为标志AI从以Rollout推理引擎为核心转向以Agent为核心的更复杂系统Claude Opus 4.6的路径是正确的国内大模型团队Pre-train代差已基本消除研究:预训练:后训练的理想卡比例约为3:1:1后训练算力投入将与预训练相当Agent时代需要至少1T以上参数的基座模型才能做到接近Claude 4.6 Opus的水平一、OpenClaw带来的范式冲击最初对OpenClaw是排斥的“我第一次看到这个东西的时候我自己大概也是这样认知。所以我很排斥去用它。创始人非常适合贴近Agent的去做一些非常玄幻的一些运营的动作。”这种转变发生在春节期间“第一天从凌晨2点持续到6点天亮。持续在分泌多巴胺兴奋到完全睡不着觉。”体验层级体验发现第一天产品体验“有灵魂有温度”memory有分层分级设计第二天工作替代可以帮忙构建团队管理方案、沉淀成skills第三天研究促进与它沟通2小时就完成了原本认为需要很长时间的User Agent设计技术差异1. Memory系统设计OpenClaw持久化memory有分层分级跨session的context共享更好Claude Codesession内压缩记忆设计for软件工程2. 多模型调度能力OpenClaw的设计理念→ 模型能力有短板框架本身去弥补→ 不需要人工配置视频理解任务自动找更强的模型→ “它的设计之初是想尽量的通过agent的整套的编排来去弥补模型的短板”3. 可定制性Claude Code是黑盒无法修改OpenClaw开源可以自己改memory系统、改agent workflow设计“我知道他框架怎么设计你让他去改你自己现场列一个新的框架出来你可以给予它现场一个新的框架出来。”OpenClaw只是壳×有一种说法认为OpenClaw只是释放了Claude 4.6 Opus能力的最好的壳。它的上限一定是靠的4.6 Opus带来的。但是让4O给改好过后这套框架本身是很好用了过后再切换到国内的一些模型依然非常强大。Agent框架激发了中层模型的上限没有复杂框架中等模型只能达到中等水平 有复杂框架中等模型在85%的任务上能达到Claude Summit水准Agent框架的本质定义“产品可以直接人交互能感受到那一层的东西。但Agent框架它确实有在去定义你的交互层。同时又在定义你怎么跟模型沟通那一层。相当于是一个中间层它可以做的非常的厚重。前端的UI展示它是最薄的一层。”好框架的标准弥补行动上的缺陷memory系统、message channel、自主性设计自我更新迭代有很好的可泛化评估体系二、Agent时代的Post-train2.1 为什么Agent很吃Post-train“我之前认为我们自己做的工作已经足够有创造力、足够不会被Skill化、不会被Workflow化。但我现在发现它竟然也能那它可不可以训出更强的模型自己左脚踩右脚就提升了——这是这一两年会发生的事情。”Agent自学习的发生途径模型进步通过RL等训练方式 ↓ 改变整套Agent框架 ↓ Agent框架包含静态信息memory写死哪些送到新session ↓ Agent框架包含动态信息架构设计本身 ↓ 框架跟模型同步往前走2.2 从Chat到Agent的牵引“整个后训练就要从所谓的Chat到Agent这样这样的一个牵引。”核心任务在Agent场景里把真的长程的任务给它构造出来并且训练进去大量SFT和RL训练覆盖更多领域提升泛化性以Code为上限以其他领域为下限Code做好 → 基座具备长上下文能力其他领域覆盖 → 模型通用性稳定2.3 长上下文训练的实操经验误区澄清不需要真的找到塞满1M上下文的任务1M tokens训练效率太低训练1M trajectory耗时可能一两分钟正确做法预训练有1M context训练过后训练有对应的任务稍微激活就能在1M context具备这样的能力资产选择问题大部分资产不适合做长程任务建模reward太不清晰回撤是没有价值的真实环境run可能涉及长期因素和额外alpha三、MiMo-V2系列模型技术解析3.1 模型概览模型定位特点MiMo-V2 Flash快速验证高性价比100-150 TPSMiMo-V2 Pro主力旗舰60-100 TPS更强智能MiMo-V2 Omni全模态理解视频音频图片文本联合理解MiMo-V2 TTS语音生成离散化建模到LLM范式3.2 架构设计决策核心目标设计目标for long context的效率来设计模型结构 ↓ 关键指标长上下文效果 推理效率成本速度 ↓ 为什么重要Agent对长上下文非常关键 很小的KV cache能做更多的缓存命中 速度是核心体验为什么选择Hybrid MTP而非MHAMHA的问题包括GM、Kimi K2在计算上已达LBM bound的临界点上MTP会被计算瓶颈所以MHA模型都慢没有上MTPMiMo的选择Hybrid架构sliding window full attention ↓ 7:1的sliding window比例Flash是5:1 ↓ 通过sliding window减少KV cache ↓ MTP填满节省的计算力 ↓ 推理时显存和计算达到很好的平衡MTP选择的契机“MTP的选择还真的是蛮后验的。模型已经快训到中后期我们开始为它设计推理方案的时候发现计算剩余实在太多太多了。”为什么之前没有人用大家太相信MHA了MHA在模型结构上把能做的都做到极致但当Post-train周期拉长后MHA失去了灵活性混合注意力机制参数层级比系数比更重要 ↓ 更大模型层数更多但sliding window总层数可以不变 ↓ 可以做更高的稀疏比 ↓ 结论更大模型可以更稀疏3.3 训练稳定性问题典型问题Loss spikeLoss直接飘某些expert负载极端化激活值异常大解决路径1. 发现问题 → 建立严密监控系统 - 查看Expert负载 - 查看每层参数输入输出 - 查看激活值是否异常 2. 定位原因可能是 - 稀疏比太高 - 结构问题 - Infran bug某个通信算子写错 3. 解决方案 - Clip掉 - 通过norm压下去 - 借鉴QK Norm - 等训练稳态后再放开“我们认为有loss spike肯定会导致某一步的更新特别不稳定。必须停下时间来找问题哪怕停两周。”3.4 多模态融合策略音频离散化选择原因追求统一到LLM范式所有东西离散化更优雅监督信号更清晰可以做NTP prediction技术挑战多层RVQ保证离散表征是大像凳子的高维空间预训练涌现更难出现出现时间更晚需要投入更多算力图片状态“图片能这么做吗图片正在进行中。不知道能不能迈过去。”架构权衡优先保证模型具备整体智能水平不追求为了统一而统一如果离散不可行会采用主流架构四、推理效率与成本4.1 速度的意义“你一旦体验到了更快的模型以及智能水平相当的更快模型你就回不到那个更慢的模型的水平了。”效率带来的可能性更快速度 → 可以做10M甚至100M上下文 ↓ 更长的context → 产生更高的智能4.2 定价逻辑变化预训练时代根据模型架构优势定价后训练时代根据最终产生的价值定价价值 模型架构优势 对Agent场景的理解能力4.3 MTP带来的成本优势“MTP因为它会被verified的。只有你预测的准我才会采纳你当前token的结果。所以它没有任何幻觉。”原理MTP在更短时间吐出更多tokenGPU利用率更高单token生成成本降低五、算力资源配置5.1 理想卡分配比例研究 : 预训练 : 后训练 3 : 1 : 1解读研究比例应该至少是正式起训练的卡总量的更多倍预训练和后训练算力投入应该相当这是Agent时代的重要变化对比Pre-train时代这个比例可能是夸张的33:15:15.2 瓶颈变化“Idea的诞生和动手写代码太快了。现在卡在卡上。”新瓶颈训练阶段GPU效率推理阶段推理卡需求量比训练更高几倍到10倍核心存储可能成为主要瓶颈六、Agent框架的未来演进6.1 当前缺陷三层进化还未发生 1. 框架本身的自进化self-improving 2. Agent之间的互相进化 3. Agent跟人之间的互相进化6.2 开源的重要性为什么开源闭源框架无法洞察框架设计无法利用大部分人的智慧改进需要更多人一起做不是某一个公司能做好隐私解决方案本地化推理 → 隐私相关任务 云端推理 → 非隐私 高难度 高创造力任务6.3 多Agent协作“更复杂任务不可能是单一Agent去做。多Agent协作某种程度上也是为了成本的考量。”当前状态多Agent能提升效率、速度、节省成本但还没有证据表明多Agent能实现更高的上限七、2026年竞争格局7.1 中美差距判断“现在大家在Pre-train上的代差是基本没有的或者说非常接近。国内团队在结构上是有优势的。”追赶速度具备1T以上基座Kimi、MiMo等如果反应速度足够快距离Claude Opus 4.6可能只有两三个月的代差关键变量接下来两三个月是考验团队研究水平、技术敏捷程度的时候如何拥抱新的范式来做研究非常关键7.2 Agent时代的入场券入场券标准 1. 至少1T以上参数的基座模型 2. 基座在Context上能力相当 3. 具备做Agent Post-train的敏捷性7.3 竞争维度扩展从预训练 → 需要同时考虑 - Agent框架的演进 - 推理芯片的整个市场供需 - 10M context什么时候做 - 更广不是更大的芯片的模型结构八、组织与管理8.1 团队构成总人数约100人含所有链路 分布 - 数据采集、数据质量 - Pre-train、Post-train - 开发、产品 - 三个方向算法语言、多模态、语音 实际投入一代模型迭代20-30人特点没有组没有固定划分没有层级实习生比例高实习生生源大二大三优先8.2 扁平化管理的逻辑“任何层级在一定程度上都是在规范和约束规范和约束本身我认为是在压制创造力的。”选择标准不在乎历史背景和基因更在乎初始化潜力的上限高不高基础要好能做成事好奇心强热爱驱动做事多样性避免同质化miss掉噪音信息8.3 热爱驱动的方法核心方式体验驱动热情“春节期间我跟团队说如果第二天OpenClaw对话次数不超过100轮的人可以直接quit。但我第二天没有去考核因为我只是希望大家用起来。”8.4 Pre-train人做Post-train的原因“做预训练的人第一应该关注的事情是多样性。他不能往这个模型里边塞一小部分数据他要塞多样性更好的数据。做预训练的人去做后训练有非常大的优势——他会天然更在乎多样性。”九、技术发展时间线9.1 从2022到2026的演进时间阶段核心事件代表2022Chat时代ChatGPT引爆对话智能OpenAI2023开源追赶LLaMA开源Qwen跟进Meta, 阿里2024范式探索o1/o3、ReasoningOpenAI2025Agent元年Agent框架成熟Anthropic2026生产力爆发Agent Post-train主导百家争鸣9.2 Code的贯穿作用Chat时代Code在4K context里验证智能 ↓ Reasoning时代Code有很好的verify指标 ↓ Agent时代Code可以天然做很长的任务软件工程 在每个范式上都是优雅的路径十、关键判断与预言10.1 AGI时间线“我感觉两年的应该能实现。”里程碑节点AI能训练AI可以自体升具备做新研究的能力自学习自迭代的巅峰10.2 Code之后的下一步Coding之后 1. 替代更多程序员 2. 参与实际项目开发 3. 延伸到更广泛生产力场景 4. 从屏幕跃出到真实空间机器人10.3 开源vs闭源的选择逻辑“你有没有一个别人不可以短期内拿下的战略生态位。如果有你就敢开源。如果没有模型就是你的生态位那你就闭源。”十一、观众反馈与补充“模型是大脑工程上的编排才能够让大脑合理发挥应有的水平”—— 对Agent框架价值的认可“普通人学不来应该是用最好的模型无限制花费才能做到”—— 指出早期探索的高成本门槛OpenClaw已经不再是黑盒—— 开源带来的透明性优势附录术语全称解释Pre-train预训练大规模语料上的基础模型训练Post-train后训练SFT、RL等针对特定能力的训练MTPMulti-Token Prediction多token预测可加速推理MHAMulti-Head Attention多头注意力机制Hybrid混合注意力sliding window full attention混合KV CacheKey-Value缓存减少重复计算的缓存机制Skill技能Agent学会的特定任务能力Agent智能体能自主完成复杂任务的AI系统SFTSupervised Fine-Tuning监督微调RLReinforcement Learning强化学习Rollout推理展开生成完整回答的过程LBMLandauer Bound Model理论计算下界模型