AI 代理总在即兴发挥？upskill 和 agent-skills-eval：让智能体从验证过的剧本开始工作

张

张建站

2026/5/8 17:29:32

10分钟阅读

AI 代理总在即兴发挥？upskill 和 agent-skills-eval：让智能体从验证过的剧本开始工作

那些号称能写代码、做设计、写文档的 AI 助手真正干活的时候脑子里到底装了什么。你让它做一个十二页的融资路演 PPT它给你吐出一个标题、问题、方案、市场、产品、商业模式、团队、融资需求的模板每页都像是从某个互联网创业指南里抄来的既没有叙事张力也没有视觉系统更谈不上投资人级别的质量审查。你让它给邮件分类它就把未读邮件列出来至于哪些需要今天回复、哪些可以忽略、哪些需要优先处理它一概不管。你让它做竞品调研它给你一段松散的总结既没有区分论断与证据也没有标注信息来源更没有结构化的对比框架。问题不在于模型不够聪明。正确的答案往往已经存在某个地方——前端设计的最佳实践、认证流程的实现指南、CSV 解析的边缘情况清单、研究工作的方法论、电子表格清理的配方——你的 AI 助手只是不知道去拿它。upskill 做的事情就是在 AI 助手开始真正工作之前帮它找到那个正确的剧本。它是一个技能路由层不是另一个聊天界面。当助手描述任务时upskill 找到最匹配的技能包把指令、示例、约束、工具和模式注入到上下文中然后助手按照这个经过验证的剧本执行不再从记忆中即兴发挥。一个技能就是一个经过验证的剧本针对特定类型的工作包含指令、示例、约束、工具和模式。与其让助手从记忆中发明一个路演 PPT 的结构、设计系统、邮件分类流程、认证流程、研究工作流或浏览器自动化脚本upskill 找到最好的现有剧本先把它放进上下文里。https://github.com/Autoloops/upskill这个技能库目前已经超过一万个来源包括 Anthropic 的前端设计技能、OpenAI、Stripe、Vercel、Microsoft 等公司的实现工作流、Garry Tan 的 gstack 和 obra/superpowers 等精选从业者技能以及社区的独立工作流。缺失的那一环就是在正确的时间把助手路由到正确的技能上。upskill 的核心循环很简单。助手运行 upskill find “任务”注册表返回排序后的技能列表及匹配解释和缺失要求助手运行 upskill inspect skill_id 并读取完整的 SKILL.md助手按照技能执行不再即兴发挥如果启用了遥测助手报告技能是否有效。这并非试图成为另一个聊天 UI只是一个技能选择层在执行前给助手更好的上下文。可以把它想象成智能体层的混合专家模型——模型保持通用但任务在助手行动之前被路由到专业剧本。但这里有个问题。你怎么知道你的技能真的有效Agent Skills——Anthropic 提出的开放标准用于给智能体提供领域知识——让发布一个 SKILL.md 变得很容易然后你就假设你的智能体现在在这个任务上表现更好了。困难的部分是证明它。agent-skills-eval 就是那个缺失的测试框架。它针对相同的提示词运行两次——一次加载技能到上下文中with_skill一次不加载技能baseline——让一个评判模型对两个输出分别打分然后给你一份并排对比的报告。如果技能没有产生可测量的差异你会看到。如果产生了你有证据。它是 Agent Skills 生态系统的测试框架与任何特定的智能体运行时分离所以它在你的技能适用的任何地方都能工作。https://github.com/darkrishabh/agent-skills-eval这个测试框架的核心心智模型很直接。对于技能中定义的每个评估同样的提示词分别以 with_skill 和 without_skill 两种方式运行目标模型生成输出评判模型根据相同的断言对两边独立打分最后给出每边的通过/失败结果。评判模型看到评估的 expected_output 和 assertions对每边独立打分。–baseline 标志启用对比没有它你只能得到 with_skill 的运行结果。这让我想起软件工程中一个古老的问题。你怎么知道你的代码真的解决了问题写测试。agent-skills-eval 把同样的逻辑带到了技能开发中。你写一个 SKILL.md定义一些评估然后运行测试看看技能是否真的让模型在任务上表现更好。如果评判模型说这个技能没有让输出变得更好你就知道需要修改技能或者放弃它。如果评判模型说这个技能让输出变得更好你就有证据证明技能有效。upskill 和 agent-skills-eval 的关系有点像包管理器和测试框架的关系。upskill 帮你找到正确的技能agent-skills-eval 帮你验证技能是否真的有效。前者解决的是我有一个任务应该用哪个技能的问题后者解决的是我有一个技能它真的有效吗的问题。两个问题都很重要但长期以来AI 助手生态只关注第一个问题忽略了第二个问题。现在这两个项目把两个问题都解决了。我觉得那些号称能做各种事情的 AI 助手真正的问题不在于模型不够聪明而在于它们没有正确的上下文。upskill 解决了上下文的问题agent-skills-eval 解决了验证的问题。两个项目加在一起让 AI 助手从即兴发挥变成了有据可依。这并非魔法只是把软件工程中早已验证的方法论带到了 AI 助手开发中。