收藏！小白程序员必看：如何让AI Agent越用越聪明？XSKILL持续学习框架深度解析

张

张建站

2026/6/27 10:51:39

10分钟阅读

收藏！小白程序员必看：如何让AI Agent越用越聪明？XSKILL持续学习框架深度解析

文章介绍了XSKILL框架旨在解决多模态大模型Agent无法从经验中学习的问题。XSKILL通过“技能”和“经验”两种互补的知识形式让Agent从执行轨迹中持续学习。技能提供任务级别的结构化工作流经验提供动作级别的决策指导。框架利用视觉观察而非纯文本记录来提取和检索知识并通过积累与推理阶段形成闭环。实验证明XSKILL能显著提升Agent在不同基准测试上的表现且知识可跨模型迁移。当前的多模态大模型agent已经能调用代码执行、网页搜索、图像检索等多种工具来解决复杂推理任务。但一个尴尬的现实是它们既不会从过去的成功中提炼经验也不会从失败中吸取教训。每次面对新任务都像失忆一样从零开始简单问题上浪费大量步骤复杂问题上又探索不够深入工具调用的组合方式僵化且缺乏灵活性。文章提出了一个核心问题能不能在不更新模型参数的前提下让agent从过去的执行轨迹中持续学习越用越聪明围绕这个问题文章提出了XSKILL框架一个面向多模态agent的双流持续学习系统。两种互补的知识技能与经验文章将agent可复用的知识拆分为两种形式。第一种是技能Skills提供任务级别的结构化工作流和可复用的工具模板解决的是怎么规划、怎么编排工具的问题。第二种是经验Experiences提供动作级别的简洁指导捕捉特定执行场景下的策略知识比如什么时候该选什么工具、遇到错误怎么恢复解决的是具体这一步怎么做决策的问题。技能像菜谱经验像厨师的手感——两者缺一不可。关键在于XSKILL将知识的提取和检索都锚定在视觉观察上而非仅依赖文本轨迹日志。这一点至关重要因为在多模态场景中很多关键决策信号来自图像本身——比如图片是否倒置、对比度是否过低——纯文本记录根本无法捕捉这些信息。积累与推理一个闭环XSKILL的架构分为两个阶段。积累阶段对每个训练任务agent执行多条独立轨迹。框架通过视觉锚定的轨迹摘要提取技能片段和关键决策点再通过跨轨迹批判机制对比成功与失败的轨迹蒸馏出可泛化的经验条目。随后进行层级化整合——语义相似度超过阈值的经验会被合并过长的技能文档会被精简确保知识库不会无限膨胀。推理阶段面对新任务时框架先将任务分解为多个抽象子任务针对每个子任务分别检索相关经验再根据当前图像和任务描述对检索到的经验进行改写、对技能文档进行裁剪适配最终以非强制性参考的方式注入agent的提示词中。agent执行完毕后使用记录会反馈回积累阶段形成持续学习的闭环。文章还采用了双模型设计一个模型负责执行推理另一个更强的模型负责知识库的提取、整合和适配操作并且支持跨模型知识迁移——一个模型积累的知识可以直接被另一个模型使用。五个基准测试的实验结果文章在VisualToolBench、TIR-Bench、MMSearch-Plus、MMBrowseComp和AgentVista五个基准上使用Gemini-2.5-Pro、Gemini-3-Flash、GPT-5-mini和o4-mini四个骨干模型进行了评估。核心数据XSKILL在不同模型上将Average4提升了2.58到6.71个百分点。在TIR-Bench上使用Gemini-3-Flash时XSKILL达到47.75%的Average4比最强基线Agent-KB高出11.13个百分点。即便是使用迁移知识的GPT-5-mini和o4-mini也获得了2.58到4.16个百分点的提升说明外化的知识结构在不同模型架构间依然有效。消融实验揭示了双流设计的必要性移除经验导致性能下降3.04个百分点移除技能下降3.85个百分点。两者扮演着截然不同的角色——技能将整体执行错误率从29.9%降至15.3%语法错误从114个降到71个工具名称错误几乎完全消除从16个降到2个而经验则显著改变了工具选择分布在VisualToolBench上将代码解释器的使用比例从66.63%提升到74.49%在MMSearch-Plus上将图像搜索的使用比例从15.43%提升到24.63%。零样本跨任务迁移实验进一步表明从一个基准积累的知识应用到另一个基准时XSKILL在不同模型和任务上始终优于所有基线方法平均提升2到3个百分点。这说明框架捕获的是可泛化的推理原则而非简单的启发式规则。文章在开源模型Qwen3-VL上的实验也值得关注跨模型迁移的知识在较弱模型上效果参差不齐虽然Pass4有所提升但Average4在部分任务上出现下降说明基座模型的能力是知识迁移有效性的前提条件。一个具体的案例文章展示了一个直观的对比面对车身上第二个’GOOD’文字位于什么颜色区域的问题没有XSKILL的agent直接凭视觉印象回答红色错误而注入了技能和经验的agent按照系统化流程裁剪感兴趣区域、进行像素级颜色采样甚至在RGB分析结果模糊时自主转换到HSV色彩空间进行验证最终正确回答紫色。让agent从无状态走向有记忆从每次重来走向越用越好XSKILL提供了一条不需要重新训练模型的可行路径。而它的局限也很明确当前实验验证的是单轮积累-测试循环真正的持续迭代精化还有待进一步验证。如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包✅ 从零到一的 AI 学习路径图✅ 大模型调优实战手册附医疗/金融等大厂真实案例✅ 百度/阿里专家闭门录播课✅ 大模型当下最新行业报告✅ 真实大厂面试真题✅ 2026 最新岗位需求图谱所有资料 ⚡️ 朋友们如果有需要《AI大模型入门进阶学习资源包》下方扫码获取~① 全套AI大模型应用开发视频教程包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点② 大模型系统化学习路线作为学习AI大模型技术的新手方向至关重要。正确的学习路线可以为你节省时间少走弯路方向不对努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划带你从零基础入门到精通③ 大模型学习书籍文档学习AI大模型离不开书籍文档我精选了一系列大模型技术的书籍和学习文档电子版它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。④ AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。⑤ 大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。⑥ 大模型大厂面试真题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我精心整理了一份大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。以上资料如何领取为什么大家都在学大模型最近科技巨头英特尔宣布裁员2万人传统岗位不断缩减但AI相关技术岗疯狂扩招有3-5年经验大厂薪资就能给到50K*20薪不出1年“有AI项目经验”将成为投递简历的门槛。风口之下与其像“温水煮青蛙”一样坐等被行业淘汰不如先人一步掌握AI大模型原理应用技术项目实操经验“顺风”翻盘这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。以上全套大模型资料如何领取

SenseVoice Small部署案例：从报错No module named model到稳定运行全过程

SenseVoice Small部署案例：从报错No module named model到稳定运行全过程 1. 项目简介：一个修复了核心问题的语音转文字工具如果你最近在部署阿里通义千问的SenseVoice Small语音识别模型，很可能遇到了一个让人头疼的报错：No m…...

2026/5/8 20:14:44 阅读更多 →

现代SD卡（ 3D TLC NAND）为什么会有 96KB / 192KB 这种奇怪的写对齐要求？

核心冲突总结主机端的诉求： 传统的软件逻辑都是按照 $2^n$ 来对齐的（如 16KB、64KB、128KB、256KB）。突然被要求按照 96KB 或 192KB（非 $2^n$ 的奇葩数字）来对齐，导致软件层需要大改。SD卡厂商的诉求&#…...

2026/5/8 20:14:45 阅读更多 →

前端使用AI试水报告搪

1 实用案例 1.1 表格样式生成本示例用于生成包含富文本样式与单元格背景色的Word表格文档。模板内容： 渲染代码： # python-docx-template/blob/master/tests/comments.py from docxtpl import DocxTemplate, RichText # data: python-docx-template/bl…...

2026/5/8 20:14:46 阅读更多 →

LPC3180 UART/SPI底层寄存器配置与调试实战指南

1. 项目概述与核心价值在嵌入式开发的日常里，串行通信就像工程师的“空气和水”，无处不在。无论是调试时打印日志、连接传感器获取数据，还是与无线模块进行指令交互，UART和SPI这两位“老将”总是绕不开的核心。很多朋友在初学时&a…...

2026/6/27 9:49:59 阅读更多 →

免费AI图像修复神器：让模糊图片秒变高清的终极指南

免费AI图像修复神器：让模糊图片秒变高清的终极指南【免费下载链接】Real-ESRGAN-GUI Lovely Real-ESRGAN / Real-CUGAN GUI Wrapper 项目地址: https://gitcode.com/gh_mirrors/re/Real-ESRGAN-GUI 你是否曾为模糊的老照片而叹息？是否因低分辨率…...

2026/6/23 15:00:07 阅读更多 →