阿里：技能正文决定Agent路由精度

张

张建站

2026/7/21 18:04:48

10分钟阅读

标题SkillRouter: Retrieve-and-Rerank Skill Selection for LLM Agents at Scale来源arXiv, 2603.22455v1摘要随着LLM代理生态系统的发展可用技能的数量工具插件已经达到数万个这使得将所有技能注入到代理的上下文中变得不可行。这就需要进行技能路由-从给定用户任务的大型池中检索最相关的技能。社区技能库中普遍存在的功能重叠使问题更加复杂其中许多技能具有相似的名称和目的但在实现细节上有所不同。尽管其实际重要性目前的代理体系结构采用渐进式公开设计-只向代理公开技能名称和描述同时隐藏整个实现主体-隐式地将元数据视为足以进行选择。我们通过对2080 K技能和75个专家验证查询的基准进行系统的实证研究来挑战这一假设。我们的关键发现是技能主体全文执行是决定性的信号删除它会导致所有检索方法的29-44个百分点的下降跨编码器注意力分析显示91.7%的注意力集中在身体领域。基于这一发现我们提出了SKILLROUTER两级检索和重新排序管道总共只有1.2亿个参数0.6B编码器 0.6B reranker. SKILLROUTER实现了74.0%的top-1路由精度并在我们评估的紧凑和零拍摄基线中提供了最强的平均结果同时保持可部署在消费者硬件上。️文章简介研究问题在拥有数万个技能的大规模生态中仅凭名称和描述是否足以让智能体准确检索到最相关的技能还是必须依赖完整的代码实现正文主要贡献论文通过实证研究推翻了对元数据的传统依赖证明技能正文是路由的关键信号并提出了轻量级 SkillRouter 流水线实现高效精准检索。重点思路构建了包含约 8 万个技能和 75 个专家验证查询的大规模基准测试模拟真实社区技能库中功能高度重叠的挑战场景。设计了控制变量实验与注意力机制分析对比仅使用名称描述与使用完整文本含正文在不同检索模型下的性能差异。提出了 SkillRouter 两阶段检索重排序架构包含一个 0.6B 参数的双编码器检索器和一个 0.6B 参数的交叉编码器重排序器均输入完整技能文本。引入三层假负例过滤机制去除功能重复的技能并采用列表式交叉熵损失函数进行微调以解决技能库同质化导致的排序难题。分析总结移除技能正文会导致所有检索方法的 Top-1 准确率下降 29 至 44 个百分点BM25 甚至降至零证明正文是决定性信号。交叉编码器的注意力分析显示91.7% 的注意力集中在技能正文上而名称和描述分别仅占 7.3% 和 1.0%。SkillRouter 紧凑版共 1.2B 参数实现了 74.0% 的 Top-1 路由准确率优于参数量大得多的零样本基线模型且可部署于消费级硬件。假负例过滤提升了 4.0% 的准确率而列表式损失函数相比点式损失函数提升了 30.7%表明在同质化池中比较排序至关重要。个人观点论文论证了路由系统必须访问完整代码正文才能做出正确判断个人理解skill检索其实是对长上下文的一种妥协。附录

雅虎日本母公司将164个OpenStack集群整合为一个

LY Corporation是一家日本互联网巨头，旗下业务涵盖即时通讯、电子商务和支付等领域，在亚洲多个国家占据重要地位。该公司近日披露，正计划将高度定制化的OpenStack云平台替换为更标准化的开源云架构，并在此过程中推进大规模的资源整…...

2026/5/8 21:02:07 阅读更多 →

3个步骤实现OpenProject API自动化集成：从需求到落地的全流程指南

3个步骤实现OpenProject API自动化集成：从需求到落地的全流程指南【免费下载链接】openproject OpenProject is the leading open source project management software. 项目地址: https://gitcode.com/GitHub_Trending/op/openproject 你是否遇到过系统间数…...

2026/5/8 21:02:08 阅读更多 →

ESTARMFM遥感影像时空融合配置环境和代码运行详细教程

原网站在github平台https://github.com/HPSCIL/cuESTARFM。，我这里是把我自己配置环境和运行的过程分享一下，本意是想记录一下踩过的坑和分享给需要的朋友。下载和安装步骤不要乱。按我写的步骤来。一、Visual Studio下载在官网下载即可，我…...

2026/5/8 21:02:09 阅读更多 →

【AI问数】多智能体协同架构：行业首创的AI问数大脑

鲲溟智能 AI智能问数系列第15篇 | 2026-07-12 10 大智能体 Multi-Agent 协同架构端到端自动化 99.97% 可用性鲲溟智能首创10大智能体协同架构，是AI问数的大脑。每个Agent专精一个领域，通过Orchestrator智能编排，实现复杂任务的端到…...

2026/7/21 17:25:49 阅读更多 →

Kimi LeetCode 3621. 位计数深度为 K 的整数数目 I Python3实现

LeetCode 3621. 位计数深度为 K 的整数数目 I Python3 实现python from functools import lru_cacheclass Solution:def popcountDepth(self, n: int, k: int) -> int:# k0：只有 1 的深度为 0if k 0:return 1 if n > 1 else 0# 预处理 1~60 的 popcount-dept…...

2026/7/20 2:27:28 阅读更多 →

向量检索加速：ANN 索引选型和查询参数调优实战

向量检索加速：ANN 索引选型和查询参数调优实战基础设施不需要漂亮话。一个 100 万向量的知识库从"勉强能用"到"丝滑检索"，差距不在算法，在工程参数的调优。一、两个向量检索系统，性能差 20 倍团队内两套知…...

2026/7/21 5:22:40 阅读更多 →

鸿蒙 ArkTS 实战：Menu Nutrition Advice 从智能助手到保存闭环完整解析

鸿蒙 ArkTS 实战：Menu Nutrition Advice 从智能助手到保存闭环完整解析前言 Menu Nutrition Advice 是一个面向菜单营养建议的鸿蒙 ArkTS 单页工具。它把主题输入、数量统计、辅助开关、备注和保存状态组织到一个移动端工作台中。项目服务于根据餐单生成营养…...

2026/7/20 4:39:22 阅读更多 →