Anthropic最新发布的Claude Opus 4.8引入的Dynamic Workflow功能允许Claude实时编写编排脚本启动多Agent并行处理复杂任务。本文介绍了Workflow如何解决单Agent循环的三大顽疾偷懒、偏好、目标漂移并通过六种编排模式和十种实际场景如迁移重构、深度研究、排序、规则遵从等展示了其强大能力。对于需要处理复杂、大规模任务的程序员Workflow提供了一种高效、可靠的解决方案但需注意其较高的token消耗。上周 Anthropic 在发布 Claude Opus 4.8 的同时还带了一个新功能Dynamic Workflow。我当天晚上就开始用了周末也没停完美花光周限额做了这个工具。当然这就是一个 token 消耗机器几个任务跑完下来几个亿的 token 就干出去了。效果方面确实超出了我的预期有个项目之前我不管用什么模型和工具都干的一塌糊涂大约 30 ~ 40 分的水平我用 Workflow /goal 则跑到了 90分但我还没完全打磨好等全部开发完了再放出来不过人群有点小众可能和大家关系不大真的可以说…… 软件正在从「目的地」变成「原材料」。而在今天Anthropic 的工程师也终于写了篇官方长文来介绍 workflow 这个新功能文章的标题很也标题党叫做「A harness for every task」。文章封面在 Claude Code 的语境里harness 就是「编排框架」决定了 Claude 怎么拆解任务、怎么调度子 Agent、怎么验证结果。之前 Claude Code 默认的 harness 是单 Agent 循环一个 Claude 在一个 context window 里从头干到尾。对大多数编程任务来说这基本够用了。但一碰到复杂的任务就会发现 AI 自己的活没好好干反而让花了钱的我累的不行……我甚至有几次给整红温了怒斥它我花钱是让我偷懒的不是让你偷懒的但 Workflow 改变了这件事Claude 现在可以实时写出一套编排脚本启动一整支子 Agent 舰队并行作战。01官方说法Claude Code 官方账号这样介绍 Workflow 的“ Claude Code 新功能研究预览动态 Workflow。Claude 实时编写编排脚本然后启动大量协调的子 Agent 并行执行处理你最复杂的任务。在 prompt 中使用「workflow」这个词即可触发。Workflow 触发界面在 Claude Code 终端中输入了一个 Workflow 指令再结合 Claude 的「ultracode」模式便会开启编排一个 API 迁移任务。官方介绍中还补充了几个关键信息Workflow 适合单个 Agent 循环搞不定的任务比如全服务 bug 排查、大规模迁移、压测设计方案token 消耗不少建议先从小任务开始试水新增了/effort ultracode级别Claude 会自行判断什么时候该启动 WorkflowWorkflow 可以保存为斜杠命令分享给团队也可以放在 home 目录全局复用目前在 Max、Team、Enterprise 和 APIBedrock、Vertex AI、Foundry上都可以用另一边Anthropic 的产品经理也同步进行了介绍“ 在 prompt 中提到「workflow」Claude 就会动态创建一个编排计划并严格按照计划执行确保每个阶段都按正确顺序完成。Agent Teams vs Workflows上图清晰地展示了 Agent Teams 和 Dynamic Workflows 的区别。左边是 Agent Teams几个 Claude 之间互相协调比较适合小团队式协作。右边是 Dynamic Workflows一个主 Claude 启动 N 个任务N 可以到上百个每个任务有执行者implementer、验证者verifier、修复者fixer三层最终汇总返回。提到了一个自己的实际用例用 Workflow 清理了内部上百个 A/B 测试 flag自动找出那些已经 roll out 到 0% 或 100% 的废弃 flag。以前这种事得让 Claude Code 一个一个顺序排查现在并行开跑很快就搞定了。02三个顽疾那为什么需要 Workflow 呢在文章里指出了根本问题默认的 Claude Code 需要在同一个 context window 里同时做规划和执行。这对大多数编程任务来说这没问题够用了。但在长时间运行、大规模并行、或者需要对抗性验证的任务上单 context window 会碰到三个顽疾Agent 偷懒Agentic Laziness。复杂任务做到一半Claude 就宣布「完成了」。比如安全审计要查 50 个条目做了 20 个就停下来说搞定了。用过的人应该都碰到过这种情况。自我偏好Self-Preferential Bias。让 Claude 验证自己写的东西它会倾向于觉得自己写得还不错。就像让学生自己批改卷子结果总是偏高。目标漂移Goal Drift。很多轮对话之后尤其是经过上下文压缩之后原始目标的细节会逐渐丢失。那些「记得别做 X」之类的约束……往往是第一批被遗忘的。Workflow 的解法给每个子任务单独启动一个 Claude各自拥有干净的 context window 和聚焦的目标。编排逻辑由确定性的 JavaScript 脚本控制不会漂移每个子 Agent 只管自己的一小块不会偷懒验证则由独立 Agent 完成不存在自我偏好context 污染。就这等于是把一个人的独角戏变成了一支各司其职的团队。03量身定制你可能之前和我一样用 Claude Agent SDK 或者claude -p搭过静态 Workflow。二者的区别在于静态 Workflow 需要事先写好编排脚本考虑各种边界情况所以往往得要么只能通用要么只能专用。而动态 Workflow 是 Claude 现场写的针对你的具体任务量身定制专用且通用。静态 vs 动态官方展示了一个例子「要不要迁移结账服务到新供应商」静态 harness 的流程是固定的做 5 次搜索 → 取结果 → 验证 → 总结输出一份通用的研究报告。动态 Workflow 则完全不同它会先读你的计费代码billing/、webhooks/、taxes/ 三个目录然后并行检查每个功能在新供应商文档中是否支持同时按你的交易量算价格最后还会启动一个「devil’s advocate」Agent 来论证「为什么不应该迁移」输出一份基于你代码库的具体建议。一个给的是标准答案一个给的是你要的答案。官方指出有了 Opus 4.8 的能力后Claude 已经足够聪明到能现场写出高质量的定制 harness 了。这也是 Workflow 选择和 Opus 4.8 一起发布的原因。04六种编排Workflow 的编排脚本是 JavaScript核心是几个函数Workflow 核心 APIagent()是基础单元用来启动一个子 Agent。可以指定 schema要求结构化 JSON 返回、model选 Opus、Sonnet 或 Haiku、isolationworktree 隔离等参数。parallel()是并行执行所有任务同时跑等全部完成再返回。pipeline()是流水线每个 item 独立穿过所有阶段互不等待。有了这几个积木之后就可以用来搭出各种编排模式了。官方总结了六种常用模式六种编排模式分类-执行先用一个分类 Agent 判断任务类型再路由到不同的处理 Agent。扇出-汇总把任务拆成小步骤并行处理最后由一个汇总 Agent 合并结果。尤其适合每个子任务需要干净 context 的场景。对抗验证每个执行 Agent 的输出都交给另一个独立 Agent 做对抗性审查。生成-过滤先让多个 Agent 并行生成方案然后按标准过滤去重只留质量最高的。锦标赛让 Agent 们竞争N 个 Agent 各自用不同方法解同一个问题配对评审层层淘汰选出最佳方案。循环至终对工作量未知的任务持续启动 Agent直到连续几轮没有新发现为止。并且这些模式还可以自由组合比如一个代码审查任务先用「扇出」把 bug、性能、安全分给不同 Agent每个发现再用「对抗验证」让独立 Agent 来反驳最后「汇总」全部结果。05十种场景接下来我们来看几个官方给出的 prompt 示例能帮我们直观感受一下 Workflow 的射程范围“ 这个测试大概 50 次会挂一次。建一个 Workflow 来复现它提出假设在 worktree 里逐个对抗验证。不找到原因不许停。用 Workflow 翻一下我最近 50 个对话记录挖出我反复纠正的模式把高频的写进 CLAUDE.md。去 Slack 的 #incidents 频道翻最近半年的记录找出反复出现但没人提 ticket 的根因。拿我的商业计划书让不同 Agent 分别从投资人、客户、竞争对手的角度来拆解。这里有 80 份简历用 Workflow 按后端岗位匹配度排序前十名再做一轮复查。这些例子已经说明了一件事Workflow 的应用范围远远超出了「写代码」。然后官方详细介绍了十种使用场景适用场景总览迁移和重构。Bun 从 Zig 到 Rust 的重写就是用 Workflow 做的Jarred 在 X 上分享了细节。思路是把任务拆成调用点、失败测试、模块等维度每个修复交给一个子 Agent 在独立 worktree 中执行另一个 Agent 做对抗审查通过后再合并。还建议避免让子 Agent 跑太重的命令这样才能最大化并行度。深度研究。Claude Code 内置的/deep-research就是用 Workflow 实现的扇出搜索、抓取源头、对抗验证声明、生成带引用的报告。也可以用它从 Slack 里编译状态报告或者深挖代码库中某个功能的实现逻辑。深度验证。如果你有一份报告需要核实每个事实声明可以让一个 Agent 先提取所有声明然后为每条声明启动独立的核查 Agent再用审计 Agent 检查信源质量。事实核查流程排序。1000 条内容按定性标准排序比如按 bug 严重程度塞到同一个 prompt 里结果肯定会崩Claude 会很聪明地偷懒干一半就撂挑子了。Workflow 则可以跑锦标赛模式一对一比较比较判断比绝对打分更可靠或者先分桶再合并。每次比较都是一个独立 Agent确定性的循环控制比赛进程只有排名结果留在 context 里。锦标赛排序规则遵从。你 CLAUDE.md 里的规则总被 Claude 遗漏那建一个 Workflow每条规则分配一个验证 Agent再加一个「怀疑者」Agent 来过滤误报只输出真正的违规。规则验证流程也可以反方向而行之从你最近的对话记录和 code review 评论中挖掘你反复纠正的模式用并行 Agent 聚类然后对抗验证这条规则真的能防住之前的错误吗把幸存的规则写回 CLAUDE.md。根因分析。调试最怕的是在同一个 context 里产生自我偏好。Workflow 可以让不同 Agent 从互不相干的证据日志、文件、数据各自生成假设再由验证 Agent 组成评审团裁决。并且这并不局限于代码销售为什么三月份下滑了数据管道为什么挂了都可以用同样的思路。规模化分诊。每个团队都有处理不完的工单积压。分诊 Workflow 可以分类每条工单、对已有记录去重然后决定是尝试修复还是上报给人。自动分诊流程这里有个模式叫「隔离」Quarantine读取不受信内容的 Agent 不能执行高权限操作高权限操作只能由处理汇总信息的 Agent 来做。配合/loop大招可以让 Claude 持续自动跑分诊。以上是技术类场景。但官方也提到Workflow 对非技术任务也许更有惊喜。探索和品味方案选择涉及品味判断时设计风格、产品命名等让 Workflow 先广泛探索评审 Agent 按 rubric 评判直到满意为止。也可以跑锦标赛模式。评估Evals把不同变体丢到独立 worktree 里运行比较 Agent 按标准打分。适合优化你写的 Skill 或 prompt。模型路由用分类 Agent 先做一轮调研判断任务复杂度再路由到 Sonnet 或 Opus。同一个任务选错了模型成本差异相当可观。06上手建议关于如何快速上手官方给出了几条实用的建议。Prompt 要写详细。用上面提到的编排模式名称来引导 Claude 构建 Workflow。而且 Workflow 也不一定要做大任务「快速跑一个对抗审查」「跑个小锦标赛选名字」这种小事也完全合适。配合 /goal 和 /loop。对可重复的任务分诊、研究、验证用/loop设定期执行用/goal设硬性完成标准。控制 token 预算。可以在 prompt 里直接说「用 10k token」Claude 会据此限制消耗。对于刚上手的用户来说这一步尤其值得注意。保存和分享。在 Workflow 菜单里按s就能保存。Workflow 保存界面可以存到~/.claude/workflows全局使用也可以放进 Skill 文件夹里分发给团队。把 JavaScript Workflow 文件放在 Skill 目录中SKILL.md 里引用即可。通过 Skill 分享官方建议把 Skill 里的 Workflow 当作模板用给 Claude 留一些灵活调整的空间这样用下来效果会更好。07克制使用最后官方专门指出Workflow 不是每个任务都需要的。常规编程任务单 Agent 循环往往够了。在启动 Workflow 之前先问一句自己这个任务真的需要更多算力吗毕竟大多数人的日常编程任务不需要 5 个 Agent 组成评审团杀鸡何用宰牛刀。但对于那些之前做不了、或者做不好的任务……Workflow 则提供了一种火力更猛的选项。它把 Claude Code 从「编程助手」扩展到了「通用任务编排器」用 token 换来的是可靠性、对抗性和并发规模。是否要选它取决于你手里的任务够不够难以及还有你的 token够不够多。如果又难又够那你就可以大胆地浪费 token节省时间。如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包✅ 从零到一的 AI 学习路径图✅ 大模型调优实战手册附医疗/金融等大厂真实案例✅ 百度/阿里专家闭门录播课✅ 大模型当下最新行业报告✅ 真实大厂面试真题✅ 2026 最新岗位需求图谱所有资料 ⚡️ 朋友们如果有需要《AI大模型入门进阶学习资源包》下方扫码获取~① 全套AI大模型应用开发视频教程包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点② 大模型系统化学习路线作为学习AI大模型技术的新手方向至关重要。 正确的学习路线可以为你节省时间少走弯路方向不对努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划带你从零基础入门到精通③ 大模型学习书籍文档学习AI大模型离不开书籍文档我精选了一系列大模型技术的书籍和学习文档电子版它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。④ AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。⑤ 大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。⑥ 大模型大厂面试真题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我精心整理了一份大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。以上资料如何领取为什么大家都在学大模型最近科技巨头英特尔宣布裁员2万人传统岗位不断缩减但AI相关技术岗疯狂扩招有3-5年经验大厂薪资就能给到50K*20薪不出1年“有AI项目经验”将成为投递简历的门槛。风口之下与其像“温水煮青蛙”一样坐等被行业淘汰不如先人一步掌握AI大模型原理应用技术项目实操经验“顺风”翻盘这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。以上全套大模型资料如何领取