Agent Harness 解析：智能体架构深度拆解

张

张建站

2026/5/21 0:33:10

10分钟阅读

你搭过一个聊天机器人接入了ReAct循环挂了几个工具演示效果不错。然后你尝试把它做成生产级产品问题随之而来模型记不住三步前做了什么工具调用静默失败上下文窗口被垃圾填满。问题不在模型。在模型周围的一切。LangChain用一个案例证明了这一点只改了包裹LLM的基础设施模型权重完全没动在TerminalBench 2.0上的排名从30名开外直接跳到第5。另一个研究项目让LLM自己优化基础设施通过率达到76.4%超过了人工设计的系统。这套基础设施现在有了一个正式的名字Agent Harness。什么是Agent Harness这个概念在2026年初被正式命名但早已存在。Harness是包裹LLM的完整软件基础设施编排循环、工具、记忆、上下文管理、状态持久化、错误处理、安全护栏。Anthropic在Claude Code文档里直接写明SDK就是「驱动Claude Code的agent harness」。OpenAI的Codex团队也用同样的框架把「agent」和「harness」视为等价概念专指让LLM变得有用的非模型基础设施。LangChain的Vivek Trivedy给出了一个清晰的定义如果你不是模型本身你就是harness。很多人容易混淆的区分在这里「agent」是涌现出来的行为是用户交互的那个有目标、会用工具、能自我纠正的实体。Harness是产生这种行为的机器。当有人说「我做了一个agent」他们其实是做了一个harness然后把它对准了一个模型。Beren Millidge在2023年的文章《作为自然语言计算机的脚手架LLM》里给了一个精准的类比裸LLM是没有内存、没有硬盘、没有I/O的CPU。上下文窗口是内存快但有限外部数据库是硬盘大但慢工具集成是设备驱动Harness是操作系统。正如Millidge所写我们重新发明了冯·诺依曼架构因为这是任何计算系统的自然抽象。三个工程层级围绕模型有三个同心圆层级提示词工程负责设计模型接收的指令。上下文工程管理模型看到什么、什么时候看到。Harness工程包含前两者再加上完整的应用基础设施工具编排、状态持久化、错误恢复、验证循环、安全执行、生命周期管理。Harness不是提示词的包装层而是让自主agent行为成为可能的完整系统。生产级Harness的12个组件综合Anthropic、OpenAI、LangChain和更广泛的实践者社区一个生产级agent harness有12个独立组件。1. 编排循环这是心跳所在。它实现思考-行动-观察TAO循环也叫ReAct循环组装提示词、调用LLM、解析输出、执行工具调用、把结果反馈回去、重复直到完成。机制上这往往只是一个while循环复杂性藏在循环管理的所有东西里而不是循环本身。Anthropic把他们的运行时描述为一个「笨循环」所有智能都住在模型里Harness只管理轮次。2. 工具工具是agent的手。它们以schema形式定义名称、描述、参数类型注入到LLM的上下文中让模型知道有哪些可用。工具层负责注册、schema验证、参数提取、沙盒执行、结果捕获以及把结果格式化成LLM可读的观察结果。Claude Code提供六个类别的工具文件操作、搜索、执行、网络访问、代码智能、以及子agent生成。OpenAI的Agents SDK支持函数工具通过function_tool、托管工具WebSearch、CodeInterpreter、FileSearch以及MCP服务器工具。3. 记忆记忆在多个时间尺度上运作。短期记忆是单次会话内的对话历史。长期记忆跨会话持久化Anthropic使用CLAUDE.md项目文件和自动生成的MEMORY.md文件LangGraph使用命名空间组织的JSON StoreOpenAI支持由SQLite或Redis支持的Session。Claude Code实现了三层层级轻量级索引每条约150字符始终加载、按需拉取的详细主题文件、以及只通过搜索访问的原始记录。一个关键设计原则agent把自己的记忆视为「提示」在行动前会对照实际状态进行验证。4. 上下文管理这是很多agent悄然失败的地方。核心问题是上下文腐烂当关键内容落在窗口中间位置时模型性能下降超过30%Chroma研究结果得到斯坦福「迷失在中间」论文的印证。即使是百万token的窗口随着上下文增长指令遵循能力也会退化。生产级策略包括压缩在接近上限时对对话历史进行摘要Claude Code在压缩时保留架构决策和未解决的bug丢弃冗余的工具输出观察屏蔽JetBrains的Junie隐藏旧的工具输出但保留工具调用可见即时检索维护轻量级标识符动态加载数据Claude Code使用grep、glob、head、tail而不是加载完整文件子agent委托每个子agent进行大范围探索但只返回1000到2000 token的压缩摘要。Anthropic的上下文工程指南明确了目标找到能最大化期望结果概率的最小高信号token集合。5. 提示词构建这一步组装模型在每一步实际看到的内容是分层的系统提示、工具定义、记忆文件、对话历史、当前用户消息。OpenAI的Codex使用严格的优先级栈服务器控制的系统消息最高优先级、工具定义、开发者指令、用户指令级联的AGENTS.md文件32 KiB上限然后是对话历史。6. 输出解析现代Harness依赖原生工具调用模型返回结构化的tool_calls对象而不是需要解析的自由文本。Harness检查有工具调用吗执行并循环。没有工具调用那就是最终答案。对于结构化输出OpenAI和LangChain都支持通过Pydantic模型进行schema约束的响应。RetryWithErrorOutputParser等旧方法把原始提示、失败的补全和解析错误反馈给模型在边缘情况下仍然可用。7. 状态管理LangGraph将状态建模为流经图节点的类型字典用reducer合并更新。检查点在超步边界处触发支持中断后恢复和时间旅行调试。OpenAI提供四种互斥策略应用内存、SDK session、服务端Conversations API或轻量级previous_response_id链接。Claude Code采用不同的方式git提交作为检查点进度文件作为结构化草稿纸。8. 错误处理这一点很关键一个每步成功率99%的10步流程端到端成功率仍然只有约90.4%。错误会快速累积。LangGraph区分四种错误类型瞬时错误带退避重试、LLM可恢复错误将错误作为ToolMessage返回让模型调整、用户可修复错误中断请求人工输入、以及意外错误向上冒泡用于调试。Anthropic在工具处理程序内捕获失败将其作为错误结果返回以保持循环运行。Stripe的生产Harness把重试次数上限设为两次。9. 护栏与安全OpenAI的SDK实现三个层级输入护栏运行在第一个agent上、输出护栏运行在最终输出上、工具护栏每次工具调用都运行。一个「断路器」机制在触发时立即停止agent。Anthropic在架构上将权限执行与模型推理分离模型决定尝试什么工具系统决定允许什么。Claude Code独立门控约40个离散工具能力分三个阶段项目加载时的信任建立、每次工具调用前的权限检查、以及高风险操作的明确用户确认。10. 验证循环这是玩具demo和生产agent的分水岭。Anthropic推荐三种方式基于规则的反馈测试、代码检查、类型检查器、视觉反馈通过Playwright截图用于UI任务、以及LLM作为评判者独立的子agent评估输出。Claude Code创建者Boris Cherny指出给模型一种验证自身工作的方式能将质量提升2到3倍。11. 子agent编排Claude Code支持三种执行模型Fork父上下文的字节级复制Teammate独立终端面板通过基于文件的邮箱通信以及Worktree每个agent拥有独立的git工作树和隔离分支。OpenAI的SDK支持agent作为工具专家处理有界子任务和移交专家接管完整控制权。LangGraph将子agent实现为嵌套状态图。文章原文未单独列出第12个组件按原文结构保留11个展开介绍。循环实际如何运转逐步演练了解了组件再来看一个完整循环的运作方式。第1步提示词组装Harness构建完整输入系统提示工具schema 记忆文件对话历史当前用户消息。重要上下文被放在提示词的开头和结尾来自「迷失在中间」的发现。第2步LLM推断组装好的提示词发送给模型API模型生成输出token文本、工具调用请求或两者都有。第3步输出分类如果模型只输出文本且没有工具调用循环结束。如果请求了工具调用进入执行。如果请求了移交更新当前agent并重新开始。第4步工具执行对每个工具调用Harness验证参数、检查权限、在沙盒环境中执行、捕获结果。只读操作可以并发运行写入操作串行运行。第5步结果打包工具结果被格式化为LLM可读的消息。错误被捕获并作为错误结果返回让模型可以自我纠正。第6步上下文更新结果追加到对话历史。如果接近上下文窗口限制Harness触发压缩。第7步循环返回第1步重复直到终止。终止条件是分层的模型产生无工具调用的响应、超过最大轮次限制、token预算耗尽、护栏断路器触发、用户中断、或返回安全拒绝。一个简单问题可能只需1到2轮一个复杂的重构任务可以在多轮中串联几十次工具调用。对于跨越多个上下文窗口的长时间运行任务Anthropic开发了一种两阶段「Ralph Loop」模式初始化agent负责建立环境初始化脚本、进度文件、功能列表、初始git提交然后后续每个会话中的编码agent读取git日志和进度文件来定位自身选择优先级最高的未完成功能完成后提交并写入摘要。文件系统在上下文窗口之间提供连续性。主流框架如何实现这一模式Anthropic的Claude Agent SDK通过单一的query()函数暴露Harness创建agent循环并返回流式消息的异步迭代器。运行时是一个「笨循环」所有智能住在模型里。Claude Code使用收集-行动-验证循环收集上下文搜索文件、阅读代码、采取行动编辑文件、运行命令、验证结果运行测试、检查输出然后重复。OpenAI的Agents SDK通过Runner类实现Harness支持三种模式异步、同步、流式。SDK是「代码优先」的工作流逻辑用原生Python表达而不是图DSL。Codex Harness在此基础上扩展出三层架构Codex Coreagent代码运行时、App Server双向JSON-RPC API、客户端界面CLI、VS Code、网页应用。所有界面共享同一个Harness这就是「Codex模型在Codex界面上的表现优于通用聊天窗口」的原因。LangGraph将Harness建模为显式状态图。两个节点llm_call和tool_node通过条件边连接如果有工具调用路由到tool_node如果没有路由到END。LangGraph从LangChain的AgentExecutor演化而来后者在v0.2中被弃用原因是难以扩展且缺乏多agent支持。LangChain的Deep Agents明确使用了「agent harness」这个词内置工具、规划write_todos工具、用于上下文管理的文件系统、子agent生成、以及持久记忆。CrewAI实现了基于角色的多agent架构Agent围绕LLM的Harness由角色、目标、背景故事和工具定义、Task工作单元和Crewagent的集合。CrewAI的Flows层增加了「关键位置有智能支撑的确定性骨架」在Crew处理自主协作时管理路由和验证。AutoGen正在演化为微软Agent Framework开创了对话驱动的编排方式。其三层架构Core、AgentChat、Extensions支持五种编排模式顺序、并发扇出/扇入、群聊、移交以及magentic管理agent维护动态任务账本协调各专家agent。脚手架比喻的精确含义脚手架这个比喻不是装饰性的它很精准。建筑脚手架是让工人能够到达他们否则无法触及位置的临时基础设施。它不负责建设但没有它工人上不了高层。关键洞察脚手架在建筑完工后会被拆除。随着模型改进Harness的复杂性应该降低。Manus在六个月内重写了五次每次重写都在去除复杂性。复杂的工具定义变成了通用的shell执行「管理agent」变成了简单的结构化移交。这指向了协同演化原则模型现在与特定Harness一起在训练循环中进行后训练。Claude Code的模型学会了使用它被训练时配合的那个特定Harness。改变工具实现可能因为这种紧密耦合而降低性能。Harness设计的「面向未来测试」是如果随着模型能力提升性能能够提升而不需要增加Harness复杂性那么设计就是健全的。每个Harness都面临的七个决策单agent还是多agentAnthropic和OpenAI都建议先把单agent做到极致。多agent系统增加开销路由需要额外的LLM调用移交时上下文会丢失。只在工具数量超过约10个重叠工具、或存在明显独立的任务域时才拆分。ReAct还是计划-执行ReAct在每一步交织推理和行动灵活但每步成本更高。计划-执行将规划与执行分离。LLMCompiler报告比顺序ReAct快3.6倍。上下文窗口管理策略五种生产方式基于时间的清除、对话摘要、观察屏蔽、结构化笔记、子agent委托。ACON研究表明通过优先保留推理轨迹而非原始工具输出可以在保持95%以上准确率的同时减少26到54%的token用量。验证循环设计计算验证测试、代码检查器提供确定性的基准真相。推断验证LLM作为评判者能捕获语义问题但增加延迟。Martin Fowler的Thoughtworks团队将其框架化为指南前馈行动前引导和传感器反馈行动后观察。权限和安全架构宽松型快但有风险自动批准大多数操作还是限制型安全但慢每次操作都需要批准。选择取决于部署场景。工具范围策略更多工具往往意味着更差的性能。Vercel从v0中删除了80%的工具结果更好了。Claude Code通过懒加载实现了95%的上下文减少。原则是只暴露当前步骤所需的最小工具集。Harness厚度多少逻辑住在Harness里多少交给模型。Anthropic押注于薄Harness和模型改进。基于图的框架押注于显式控制。Anthropic随着新模型版本将那些能力内化定期从Claude Code的Harness中删除规划步骤。Harness就是产品使用相同模型的两个产品仅凭Harness设计就可以产生截然不同的性能。TerminalBench的证据很清楚只改变Harness就能让agent的排名移动20个以上的位次。Harness不是一个已解决的问题也不是一个商品化的层。它是真正硬核的工程所在把上下文作为稀缺资源来管理设计在失败累积之前就能捕获失败的验证循环构建能提供连续性而不产生幻觉的记忆系统以及在「要构建多少脚手架」与「留多少给模型」之间做出架构决策。这个领域正在向更薄的Harness方向演进因为模型在持续改进。但Harness本身不会消失。即使是最强大的模型也需要某个东西来管理它的上下文窗口、执行它的工具调用、持久化它的状态、以及验证它的工作。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

从HC595到TM1637：一个STM32新手解决数码管闪烁的踩坑实录

从HC595到TM1637：一个STM32新手解决数码管闪烁的踩坑实录数码管作为嵌入式开发中最基础的显示器件之一，其驱动方式的选择往往决定了整个系统的稳定性和用户体验。当我在一个温湿度监测项目中首次使用HC595驱动四位数码管时，完全没有预料到会…...

2026/5/21 0:32:18 阅读更多 →

国产化替代踩坑记：FMQL平台下，如何为你的‘大个头’驱动程序分配DDR内存？

FMQL平台大型驱动开发实战：DDR内存分配与启动优化全解析当你在FMQL平台上调试一个"大块头"驱动程序时，是否遇到过这样的场景：在线调试一切正常，但烧录到Flash后系统直接死机？这往往是内存分配不当导致的典型…...

2026/5/21 0:31:12 阅读更多 →

别死磕数据线！聊聊EMMC BGA布线里那些能删掉的‘废脚’

别死磕数据线！EMMC BGA布线中那些被忽略的"废脚"优化策略在PCB layout工程师的日常工作中，EMMC存储器的BGA封装布线常常让人头疼不已。0.5mm的球间距、密集的数据线、严格的阻抗要求，这些因素叠加在一起，往往让设计者…...

2026/5/21 0:30:17 阅读更多 →

CircuitPython嵌入式开发实战：从传感器采集到数据存储的完整方案

1. 项目概述与核心价值如果你刚开始接触嵌入式开发，面对琳琅满目的传感器、通信协议和存储需求，可能会感到无从下手。今天，我想分享一个基于CircuitPython的综合性实践项目，它串联了从模拟信号采集、数字通信到数据存储的多个核心…...

2026/5/21 12:13:15 阅读更多 →

3PEAK思瑞浦 TPA2644-TS2R TSSOP14 运算放大器

特性供电电压:3V至36V 偏移电压:2mV(最大值) 差分输入电压范围至电源轨，可作为比较器工作带宽:1.5MHz，斜率:0.5V/us 输入轨至-Vs，无内部ESD二极管至Vs 低1/f噪声:在10Hz时为50nV/Hz 高PSRR:100kHz时60dB 开关电源时无显著输出抖动工作温度…...

2026/5/17 0:09:46 阅读更多 →

如何用免费开源通信调试工具Wu.CommTool提升工业自动化效率

如何用免费开源通信调试工具Wu.CommTool提升工业自动化效率【免费下载链接】Wu.CommTool 基于C#、WPF、Prism、MaterialDesign、HandyControl开发的通讯调试工具。支持Modbus Rtu调试、Mqtt调试、TCP调试、串口调试、UDP调试项目地址: https://gitcode.com/gh_mirrors/wu/W…...

2026/5/21 5:13:18 阅读更多 →