微软双论文深度剖析：Agent Skill 的评测体系与自进化优化

张

张建站

2026/5/31 18:32:33

10分钟阅读

你的 Skill 真的有用吗？这个问题比你想的难回答假设你花了一个下午，给你的 Agent 精心写了一个 Skill——里面有清晰的步骤、详尽的注意事项、格式规范的输出要求。你手动测了几次，感觉相当不错。然后你把它投入生产。三周后，你发现某些任务的成功率反而比没有 Skill 时低了。这不是假设场景。微软研究团队在 2026 年 5 月同期发布的两篇论文——SkillLens（“From Raw Experience to Skill Consumption”）和SkillOpt（“Executive Strategy for Self-Evolving Agent Skills”）——用严格的实验数据告诉我们：这种"负迁移"现象在 25% 的情况下都会发生，而且你靠肉眼读 Skill 文本根本判断不出来哪个更好。这两篇论文一个回答"Skill 为什么有时候不管用"，另一个回答"怎么系统性地让 Skill 越来越好"。读完你会发现，它们共同描绘的是一个关于 Agent 能力提升的全新范式。第一篇论文：SkillLens——Skill 的完整生命周期研究Skill 不是一个点，而是一条链大多数人对 Skill 的理解停留在"一段写给 Agent 看的指令文本"。但 SkillLens 把这件事拆得更细，提出了 Skill 的三阶段生命周期：阶段 1: 经验生成（Experience Generation）目标模型 M 在训练任务上跑一遍，产生一批执行轨迹 ↓ 阶段 2: 技能提取（Skill Extraction）提取器模型 E 分析这批轨迹，蒸馏成结构化的 Skill 文档 ↓ 阶段 3: 技能消费（Skill Consumption）同一个目标模型 M 带着提取出的 Skill 去做新任务，看能不能提升这条链上有两个独立角色：**提取器（Extractor）**负责从经验中提炼知识，**目标模型（Target）**负责消费知识提升表现。关键洞察是：这两个角色彼此独立，性能不相关。一个提取能力强的模型可能是个弱消费者，反之亦然。两个新指标：EE 和 TE为了量化这两个角色的差异，论文提出了两个互补的指标：提取效能（Extraction Efficacy, EE）：固定一个提取器，它能为多少个不同目标模型稳定生产有用的 Skill？EE ( E , D ) = 1 ∣ M ∣ ∑ M ∈ M Δ ( E , M , D ) \text{EE}(E, \mathcal{D}) = \frac{1}{|\mathcal{M}|} \sum_{M \in \mathcal{M}} \Delta(E, M, \mathcal{D})EE(E,D)=∣M∣1M∈M∑Δ(E,M,D)目标可进化性（Target Evolvability, TE）：固定一个目标模型，当用不同提取器来蒸馏它自己的经验，它能从中获得多大提升？

如何在3分钟内搭建你的跨平台游戏串流系统：Sunshine完整实战指南

如何在3分钟内搭建你的跨平台游戏串流系统：Sunshine完整实战指南【免费下载链接】Sunshine Self-hosted game stream host for Moonlight. 项目地址: https://gitcode.com/GitHub_Trending/su/Sunshine 想要在任何设备上畅玩PC游戏吗？Sunshine这…...

2026/5/31 18:31:24 阅读更多 →

基于Arduino的MLA格式自动化工具：硬件编程与办公效率的巧妙结合

1. 项目概述与核心价值作为一名长期混迹于创客社区和学术圈的“双料”玩家，我一直在寻找那些能真正解决实际痛点的项目。今天要聊的这个“基于Arduino的MLA格式自动化工具”，就是一个典型代表。它不是什么高精尖的火箭科技，但恰恰是这种将硬件…...

2026/5/31 18:30:36 阅读更多 →

科研党必备：用EndNote 20建立你的第一个文献库，告别参考文献混乱

科研党必备：用EndNote 20建立你的第一个文献库，告别参考文献混乱刚装好EndNote 20的研究者们，往往对着空白界面手足无措——这和想象中能自动整理文献的神器相去甚远。事实上，这个阶段最关键的突破点在于建立第一个真正可用的文献…...

2026/5/31 18:29:13 阅读更多 →

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

AnolisOS 8.8安装源配置实战指南：从诊断到解决方案的全流程解析当你在安装AnolisOS 8.8时遇到"设置基础软件仓库时出错"的提示，这通常意味着系统无法访问或识别安装源。这个问题看似简单，但背后可能涉及网络配置、镜像选择、启动参…...

2026/5/31 0:02:01 阅读更多 →

Lindy路线图前瞻：3个已被验证的信号，预示Q3将启动下一代AI原生平台重构

更多请点击： https://intelliparadigm.com 第一章：Lindy路线图前瞻：3个已被验证的信号，预示Q3将启动下一代AI原生平台重构信号一：核心基础设施层API调用量连续8周突破临界阈值 Lindy平台的 /v2/execute与 /v3/plan端…...

2026/5/31 0:05:14 阅读更多 →

【AI工具智能排行榜TOP10】：2024年实测数据驱动的生产力跃迁指南（仅限本周开放下载）

更多请点击： https://kaifayun.com 第一章：AI工具智能排行榜TOP10的底层逻辑与评估范式 AI工具排行榜并非主观评分的产物，而是由多维可量化指标驱动的系统性工程。其核心在于构建一个兼顾能力广度、推理深度、工程鲁棒性与生态协同性的评估范…...

2026/5/31 0:08:54 阅读更多 →

3步解决博德之门3模组管理难题：BG3ModManager完整使用指南

3步解决博德之门3模组管理难题：BG3ModManager完整使用指南【免费下载链接】BG3ModManager A mod manager for Baldurs Gate 3. This is the only official source! 项目地址: https://gitcode.com/gh_mirrors/bg/BG3ModManager BG3ModManager是专为《博德之…...

2026/5/31 0:17:22 阅读更多 →