你的 Skill 真的有用吗?这个问题比你想的难回答假设你花了一个下午,给你的 Agent 精心写了一个 Skill——里面有清晰的步骤、详尽的注意事项、格式规范的输出要求。你手动测了几次,感觉相当不错。然后你把它投入生产。三周后,你发现某些任务的成功率反而比没有 Skill 时低了。这不是假设场景。微软研究团队在 2026 年 5 月同期发布的两篇论文——SkillLens(“From Raw Experience to Skill Consumption”)和SkillOpt(“Executive Strategy for Self-Evolving Agent Skills”)——用严格的实验数据告诉我们:这种"负迁移"现象在 25% 的情况下都会发生,而且你靠肉眼读 Skill 文本根本判断不出来哪个更好。这两篇论文一个回答"Skill 为什么有时候不管用",另一个回答"怎么系统性地让 Skill 越来越好"。读完你会发现,它们共同描绘的是一个关于 Agent 能力提升的全新范式。第一篇论文:SkillLens——Skill 的完整生命周期研究Skill 不是一个点,而是一条链大多数人对 Skill 的理解停留在"一段写给 Agent 看的指令文本"。但 SkillLens 把这件事拆得更细,提出了 Skill 的三阶段生命周期:阶段 1: 经验生成(Experience Generation) 目标模型 M 在训练任务上跑一遍,产生一批执行轨迹 ↓ 阶段 2: 技能提取(Skill Extraction) 提取器模型 E 分析这批轨迹,蒸馏成结构化的 Skill 文档 ↓ 阶段 3: 技能消费(Skill Consumption) 同一个目标模型 M 带着提取出的 Skill 去做新任务,看能不能提升这条链上有两个独立角色:**提取器(Extractor)**负责从经验中提炼知识,**目标模型(Target)**负责消费知识提升表现。关键洞察是:这两个角色彼此独立,性能不相关。一个提取能力强的模型可能是个弱消费者,反之亦然。两个新指标:EE 和 TE为了量化这两个角色的差异,论文提出了两个互补的指标:提取效能(Extraction Efficacy, EE):固定一个提取器,它能为多少个不同目标模型稳定生产有用的 Skill?EE ( E , D ) = 1 ∣ M ∣ ∑ M ∈ M Δ ( E , M , D ) \text{EE}(E, \mathcal{D}) = \frac{1}{|\mathcal{M}|} \sum_{M \in \mathcal{M}} \Delta(E, M, \mathcal{D})EE(E,D)=∣M∣1​M∈M∑​Δ(E,M,D)目标可进化性(Target Evolvability, TE):固定一个目标模型,当用不同提取器来蒸馏它自己的经验,它能从中获得多大提升?