LLM Agent爆星攻略：从权重到Harness，揭秘能力进化的三重跳！

张

张建站

2026/4/14 21:31:19

10分钟阅读

可靠的Agent能力不仅来自模型内部参数权重更来自将认知负担外部化到结构化基础设施中。近期上交大、中山大学、卡梅隆等发表长文对 LLMAgents中的外部化记忆、Skills、协议与Harness工程进行了统一综述[5000 starHarness门槛被OpenHarness打穿了]借用认知工具Cognitive Artifacts理论Agent基础设施的重要性不仅在于添加辅助组件而在于将难以解决的认知负担转化为模型能更可靠处理的形式。图1外部化作为LLM Agent设计的组织原则人类认知外部化的弧线从思维→语言→文字→印刷→计算LLM Agent对应的外部化弧线从权重Weights通过三个外部化维度——记忆Memory外部化状态、技能Skills外部化专业知识、协议Protocols外部化交互——最终到达Harness harness系统。[只给零散实验日志谷歌PaperOrchestra就能写出顶会投稿LaTeX论文]从权重到上下文再到Harness能力的三次迁移展示了从2022到2026年研究重心如何从Weights预训练、Scaling Law转向ContextRAG、长上下文再到HarnessMCP工具生态、安全、多Agent协作。图2社区主题在三个能力层次上的演变2.1 权重时代Weights内在知识的局限早期的现代LLM部署几乎完全依赖模型参数。预训练将统计规律、世界知识和推理习惯压缩进权重中。Scaling Law揭示了参数规模与性能的可预测关系。局限知识更新困难需要重新训练、难以审计知识分散在数十亿参数中、缺乏个性化一套权重服务百万用户却无法区分。2.2 上下文时代Context提示工程的崛起能力开始从模型内部向输入设计转移。少样本示例、思维链Chain-of-Thought、RAG检索增强生成等技术证明不必修改权重仅通过精心设计的上下文就能显著改变模型行为。关键转变将困难的回忆问题模型必须从参数中恢复知识转化为简单的识别问题模型只需使用已提供的上下文。2.3 Harness时代基础设施即能力随着上下文窗口饱和和提示模板变得笨重工程注意力转向模型应在什么样的环境中运行。图3Harnessed LLM Agent的外部化架构Harness层包括持久记忆存储、工具注册表、协议定义、沙箱、子Agent编排、评估器等。可靠性越来越多地通过改变环境而非提示模型来解决。外部化状态记忆系统Memory记忆外部化解决的是Agent的时间连续性负担。原生LLM是无状态生成器每次调用都是全新的上下文连续性必须在提示中重建。图4作为外部化状态的记忆展示了从原始上下文到记忆内容的转换以及四种记忆系统架构单体上下文、检索存储、分层编排提取-巩固-遗忘-冷热交换和自适应记忆系统动态模块、基于反馈的策略优化。架构演进单体上下文所有历史保留在提示中简单但容量受限上下文检索存储近端状态在上下文长期轨迹外部存储RAG模式分层记忆与编排引入显式的提取、巩固和遗忘操作如MemGPT、Memory OS自适应记忆系统模块和检索策略能根据经验响应如MemEvolve、MemRL认知工具视角记忆系统将无界回忆转化为有界、精选的检索改变了模型在每个决策点面临的任务结构。外部化专业知识技能系统Skills技能外部化解决的是程序性负担。模型可能知道如何完成任务但可靠执行需要重复构建工作流、默认值和约束这导致方差遗漏步骤、不稳定的工具使用、不一致的终止条件。4.1 技能的三个组件操作程序Operational Procedure任务骨架步骤分解、阶段、依赖、停止条件决策启发Decision Heuristics分支点的实用经验法则先尝试什么、何时退出规范约束Normative Constraints可接受性的边界测试要求、范围限制、访问控制4.2 从执行原语到能力包技能系统经历了三个阶段阶段1原子执行原语如Toolformer——稳定调用单个工具阶段2大规模原语选择如Gorilla、ToolLLM——在大量工具中检索选择阶段3技能作为打包的专业知识——将任务类别的操作方法打包为可重用单元图5作为外部化专业知识的技能展示了技能的完整生命周期从获取专家编写、从情景记忆蒸馏、环境探索发现、现有单元组合到技能工件操作程序、决策启发、规范约束再到激活流水线注册表发现、渐进式披露、组合最后在运行时执行。关键机制渐进式披露不一次性加载完整技能文档而是分层暴露名称→摘要→完整指南执行绑定技能必须通过协议接口绑定到可执行动作工具、API、文件、子Agent组合性技能可参与更高阶协调串行、并行、条件路由、递归调用外部化交互协议系统Protocols协议外部化解决的是协调负担。裸模型可能推断出应该调用工具或委派子Agent但没有显式契约时它必须即兴创作消息格式、参数结构、生命周期语义和恢复行为。5.1 协议的内容维度协议将以下四个维度外部化调用语法Invocation Grammar参数名称、类型、顺序、返回结构schema化生命周期语义Lifecycle Semantics多步交互的协调规则状态机、事件流权限与信任边界授权规则、数据流向、审计要求发现元数据Discovery Metadata能力注册表、能力卡片、schema端点图6作为外部化交互的协议上图从孤立模型调用→API硬编码→标准化协议→Agent Web的演进。下图Harness通过三个功能界面实现外部化交互管理Interact与外部API/工具交互、Perceive感知环境/上下文/记忆/反馈、Collaborate与其他LLM/Agent/人类协作。5.2 协议家族综述统一外部化Harness工程Harness是承载三个外部化维度记忆、技能、协议的工程层提供编排逻辑、约束、可观测性和反馈循环使外部化认知在实践中可靠运行。6.1 什么是HarnessHarness不是模型之外的第四个外部化维度而是运行时环境——模型在其内部运行通过它感知、决策和行动。图3Harnessed LLM Agent的外部化架构Harness位于中心三个外部化维度围绕它运行记忆工作上下文、语义知识、情景经验、个性化记忆、技能操作程序、决策启发、规范约束、协议Agent-用户、Agent-Agent、Agent-工具。操作元素沙箱、可观测性、压缩、评估、审批循环、子Agent编排调节Harness核心与外部化模块的交互。6.2 Harness设计的六个分析维度图7作为认知环境的Harness基础模型Agent核心位于中心六个Harness维度形成协调环记忆状态持久化、技能可重用例程、协议确定性接口、权限沙箱、文件隔离、控制递归边界、成本上限、可观测性结构化日志、执行轨迹。6.3 Harness作为认知环境从分布式认知理论看Harness不仅仅是软件基础设施而是塑造Agent有效认知的环境。它决定了什么进入感知领域、什么跨会话保留、哪些操作可调用、哪些行动需要审批、哪些中间状态可修订。Harness将无界任务转化为结构化环境通过外部化记忆、形式化程序、引入显式控制点和约束执行重新分配认知工作负载。交叉分析模块间耦合三个外部化模块在Harness内并非孤立而是形成六条关键交互流结语抓住大模型时代的职业机遇AI大模型的发展不是“替代人类”而是“重塑职业价值”——它淘汰的是重复性、低附加值的工作却催生了更多需要“技术业务”交叉能力的高端岗位。对于求职者而言想要在这波浪潮中立足不仅需要掌握Python、TensorFlow/PyTorch等技术工具更要深入理解目标行业的业务逻辑如金融的风险控制、医疗的临床需求成为“懂技术、懂业务”的复合型人才。无论是技术研发岗如算法工程师、研究员还是业务落地岗如产品经理、应用工程师大模型都为不同背景的职场人提供了广阔的发展空间。只要保持学习热情紧跟技术趋势就能在AI大模型时代找到属于自己的职业新蓝海。最近两年大模型发展很迅速在理论研究方面得到很大的拓展基础模型的能力也取得重大突破大模型现在正在积极探索落地的方向如果与各行各业结合起来是未来落地的一个重大研究方向大模型应用工程师年包50w属于中等水平如果想要入门大模型那现在正是最佳时机2025年Agent的元年2026年将会百花齐放相应的应用将覆盖文本视频语音图像等全模态如果你对AI大模型入门感兴趣那么你需要的话可以点击这里大模型重磅福利入门进阶全套104G学习资源包免费分享扫描下方csdn官方合作二维码获取哦给大家推荐一个大模型应用学习路线这个学习路线的具体内容如下第一节提示词工程提示词是用于与AI模型沟通交流的这一部分主要介绍基本概念和相应的实践高级的提示词工程来实现模型最佳效果以现实案例为基础进行案例讲解在企业中除了微调之外最喜欢的就是用提示词工程技术来实现模型性能的提升第二节检索增强生成RAG可能大家经常会看见RAG这个名词这个就是将向量数据库与大模型结合的技术通过外部知识来增强改进提升大模型的回答结果这一部分主要介绍RAG架构与组件从零开始搭建RAG系统生成部署RAG性能优化等第三节微调预训练之后的模型想要在具体任务上进行适配那就需要通过微调来提升模型的性能能满足定制化的需求这一部分主要介绍微调的基础模型适配技术最佳实践的案例以及资源优化等内容第四节模型部署想要把预训练或者微调之后的模型应用于生产实践那就需要部署模型部署分为云端部署和本地部署部署的过程中需要考虑硬件支持服务器性能以及对性能进行优化使用过程中的监控维护等第五节人工智能系统和项目这一部分主要介绍自主人工智能系统包括代理框架决策框架多智能体系统以及实际应用然后通过实践项目应用前面学习到的知识包括端到端的实现行业相关情景等学完上面的大模型应用技术就可以去做一些开源的项目大模型领域现在非常注重项目的落地后续可以学习一些Agent框架等内容上面的资料做了一些整理有需要的同学可以下方添加二维码获取仅供学习使用

【电信运营商】从BRAS日志到智能决策：基于图神经网络与实时特征工程的业务精准营销

1. BRAS日志：从原始数据到用户行为金矿宽带远程接入服务器（BRAS）是电信运营商网络中的关键设备，它产生的日志数据就像一座未经开采的金矿。每一条BRAS日志记录都包含着用户网络行为的蛛丝马迹，从简单的上网时长到复杂…...

2026/4/14 21:30:40 阅读更多 →

STM32MP1开发板USB/SDIO双模WIFI驱动移植全攻略（附RTL8723DS/RTL8188EUS避坑指南）

STM32MP1双模WIFI驱动深度优化：从硬件配置到智能组网实战 1. 嵌入式WIFI驱动开发的核心挑战与解决方案在物联网设备开发中，WIFI模块的选择与驱动适配一直是工程师面临的关键难题。STM32MP1作为一款高性能的嵌入式MPU，其支持USB和SDIO双模WIF…...

2026/4/14 21:29:42 阅读更多 →

Rust 宏系统性能优化技巧

Rust 宏系统性能优化技巧 Rust的宏系统是其元编程能力的核心，能够在编译期生成代码，提升开发效率。不当的宏使用可能导致编译时间延长或生成低效代码。本文将介绍几个关键技巧，帮助开发者优化宏的性能，确保其在高效运行的同时不影…...

2026/4/14 21:29:17 阅读更多 →

Snyk 依赖性安全漏洞扫描工具实战指南：从安装到多语言项目扫描

1. Snyk工具与依赖安全漏洞扫描基础第一次听说Snyk是在去年参与一个金融项目时，我们的技术负责人突然要求所有依赖包必须通过安全扫描才能上线。当时团队里没人知道该怎么操作，直到发现了这个神器。Snyk本质上是个"依赖包安检仪"，…...

2026/4/13 13:51:39 阅读更多 →

mbed OS 6+ 嵌入式TFTP服务器设计与实现

1. TFTPServer项目概述TFTPServer 是一个面向 ARM mbed OS 平台的轻量级 TFTP（Trivial File Transfer Protocol）服务器实现，专为嵌入式以太网设备设计。其核心目标是在资源受限的 MCU（如 STM32F4/F7/H7、NXP LPC1768/LPC54608、Re…...

2026/4/13 13:14:19 阅读更多 →

Windows效率神器PowerToys：30+免费工具让你的电脑生产力翻倍

Windows效率神器PowerToys：30免费工具让你的电脑生产力翻倍【免费下载链接】PowerToys Microsoft PowerToys is a collection of utilities that supercharge productivity and customization on Windows 项目地址: https://gitcode.com/GitHub_Trending/po/Powe…...

2026/4/14 3:20:16 阅读更多 →

RX63N驱动SSD1963显示控制器的HAL级配置指南

1. 项目概述Display_shield_config是为 Renesas GR-PEACH 开发板配套的显示扩展板（Display Shield）所设计的一套底层配置资源集合。GR-PEACH 是基于 Renesas RX63N 微控制器的高性能嵌入式开发平台，主频高达 100 MHz，内置 1 MB Fl…...

2026/4/14 4:56:47 阅读更多 →