Transformer 架构对 Agent 发展的贡献
Transformer 架构对 Agent 发展的贡献引言作为一位从2017年Transformer论文初现就“追着看遍每一篇变体、刷爆每一个训练开源库”的软件工程师以及一个在技术社区分享AI Agent入门到实战累计获得30万阅读量的博主今天我想和大家聊一个对AI未来十年发展**最核心、最不容错过、又最容易被“表面化拆解”**的话题Transformer架构到底为Agent的爆发式萌芽和商用化落地做了什么痛点引入先不聊抽象的术语我们先回到5年前——甚至3年前Agent的世界是什么样的如果你想做一个“能订机票订酒店给老板写日程提醒把当天航班延误信息自动翻译成日语给外籍客户发邮件”的多任务Agent你需要给每个任务写独立的、高度耦合的规则引擎比如订机票规则要覆盖100航司的API参数老板的日程偏好要硬编码在prompt模板以外的逻辑链里用一堆过时的RNN/LSTM做自然语言理解模块不仅理解慢、准确率差还经常“忘掉前面订的是去东京还是大阪的机票”哪怕好不容易拼凑出一个能用的稍微改一下老板的日程表格式、或者换个不常见的航司API整个规则链就崩成渣修复周期要以“周”甚至“月”为单位当时的技术社区里大家聊Agent聊得最多的是“OpenAI Gym里的Atari游戏有没有刷新记录”“强化学习怎么解决探索与利用的矛盾”至于“能帮普通人解决生活工作问题的通用型Agent”完全是科幻小说里的东西——2020年GPT-3刚出来的时候我还和群里的工程师打赌“GPT-3连简单的数学题都算错要能做通用Agent我倒立写代码”。现在呢你可以用LangChain/LlamaIndex/CrewAI这些框架花2小时不到拼接几个Transformer驱动的LLM、几个RAG模块、几个工具调用插件做一个功能和我5年前想的一模一样的Agent你还可以给这个Agent加个“反思模块”让它自己检查订的酒店是不是靠近东京迪士尼、老板的日程提醒会不会和日本节假日冲突、日语翻译有没有用敬语甚至你可以用AutoGPT/GPT-4o这类自主Agent把“老板让我去东京出差一周”这一句话甩给它剩下的订机票、订酒店、查商务会议场地、整理迪士尼游玩攻略给老板女儿、准备日语问候语材料……所有事情全部不用管最后只需要它给你一个确认邮件就行为什么短短3-4年时间Agent领域会发生翻天覆地、从科幻到现实的跨越很多人会说“是因为GPT-4/GPT-5这类大模型变强了”“是因为OpenAI推出了Function Calling功能”——没错这些都是直接的触发点但背后最根本、最底层的支撑是2017年Vaswani等人发表的那篇《Attention Is All You Need》里提出的Transformer架构。核心问题今天这篇文章我不会像其他技术文章那样只给你讲“Transformer怎么理解自然语言”“LLM怎么调用工具”而是会从Agent的核心属性出发一层一层地拆解Agent的核心定义到底是什么别再听网上的“AgentLLM工具记忆”了这个定义太表面化完全没抓住本质在Transformer出现之前传统Agent的核心瓶颈有哪些我会用我当年做规则链Agent和RNN/LSTM Agent踩过的无数坑给你具象化这些瓶颈Transformer架构的5个核心机制自注意力机制、位置编码、多头注意力、编码器-解码器架构或者说自回归/自编码变体、可堆叠性与可扩展性分别解决了传统Agent的哪些瓶颈Transformer架构的7个核心贡献方向通用自然语言理解能力、无限上下文窗口潜力、工具调用能力的通用化、记忆系统的标准化、推理能力的涌现、多模态Agent的基础、自主决策能力的支撑在Agent领域的具体表现是什么我会用一个我亲手做过的、现在还在小范围商用的“跨境电商选品Agent”作为案例给你展示Transformer架构是怎么一步步把这个Agent从“不可能”变成“高效好用”的最后我会聊聊Transformer架构在Agent领域的边界与局限性以及未来几年可能的发展方向——别以为Transformer已经完美了它还有很多致命的问题等着我们去解决最终效果展示先给大家看一下我那个小范围商用的“跨境电商选品Agent”叫它“选品小助手V3.0”吧的最终效果用户输入一句中文口语“我想在亚马逊北美站做女装预算10万人民币利润率要求30%以上不要太容易侵权的最近3个月北美站搜索量增长最快的帮我选3-5个每个给个详细的分析报告”选品小助手V3.0的输出流程完全自主中间不用用户干预自然语言理解把这句中文口语拆解成“平台亚马逊北美站”“品类女装”“预算10万人民币”“利润率下限30%”“禁要求高侵权风险”“选品维度最近3个月搜索量增长”“选品数量3-5个”“输出要求详细分析报告”RAG查询先从我的私有向量数据库里查询最近3个月亚马逊北美站女装类目的搜索量数据、侵权风险规则是我从亚马逊官方文档和近半年的侵权案例里整理出来的、中国供应商的拿货渠道1688、拼多多跨境、环球资源这些我也整理到了向量数据库里工具调用调用“谷歌趋势API”或者我自己爬的谷歌趋势数据的本地接口验证最近3个月北美站女装类目的搜索量增长Top10的子品类调用“亚马逊卖家精灵API”或者我自己爬的卖家精灵数据的本地接口获取Top10子品类的平均客单价、平均拿货价通过卖家精灵的“成本计算器”反推、平均评价数、平均BSR排名、侵权风险评分调用“1688搜索API”获取Top10子品类的中国供应商拿货价、起订量、发货时间筛选与计算先按照“侵权风险评分3分满分10分”筛选掉前3个子品类比如“星球大战主题T恤”“哈利波特主题卫衣”“LV图案的包包”再按照“利润率客单价-拿货价-亚马逊FBA费-平台佣金-广告预算/客单价≥30%”筛选掉后2个子品类剩下的5个子品类再按照“最近3个月搜索量增长从高到低”排序取前3个反思与验证自己检查第一个子品类“可折叠瑜伽垫收纳袋带挂绳”的客单价是不是算错了平均客单价是29.99美元拿货价是15元人民币左右亚马逊FBA费是3.5美元平台佣金是15%广告预算是客单价的10%利润率是29.99-15/7.2-3.5-29.990.15-29.990.1/29.99≈38%没问题自己检查第二个子品类“宠物狗专用的降温项圈凝胶款”的侵权风险是不是真的低查了一下向量数据库里的侵权案例最近半年只有2个都是因为用了某个特定品牌的Logo只要避开Logo就行没问题自己检查第三个子品类“婴儿车遮阳伞可调节角度”的起订量是不是在预算范围内起订量是500个拿货价是25元人民币左右总成本是500*2512500元人民币远低于10万预算没问题报告生成给每个子品类生成一个详细的中文分析报告包括“子品类介绍”“最近3个月搜索量增长趋势图用Matplotlib生成然后转换成Base64字符串放在报告里”“平均客单价、拿货价、FBA费、平台佣金、广告预算、利润率计算明细”“侵权风险分析”“中国供应商推荐”“起订量、发货时间、总成本分析”“未来3个月的销售预测用简单的线性回归模型生成模型也是我用Transformer预训练过的”发送报告把报告保存成PDF格式然后通过我的私有SMTP接口发送到用户的邮箱里整个流程下来只需要3-5分钟准确率能达到90%以上——而在Transformer出现之前我要做这样一个Agent至少需要3-5个工程师花3-5个月的时间准确率还不到50%。准备工作前置知识梳理在正式拆解Transformer架构对Agent的贡献之前我得先给大家梳理一些必须要掌握的前置知识——别担心我会用通俗易懂的方式讲解不会堆砌太多复杂的公式当然关键的公式我还是会用LaTeX写出来方便喜欢深入研究的同学。1. Agent的核心定义重新解构别再被表面化的定义误导首先我要给Agent下一个更严谨、更本质的定义——这个定义不是我凭空想出来的而是我参考了人工智能领域经典的教科书《Artificial Intelligence: A Modern Approach》罗素和诺维格著、强化学习领域的经典框架马尔可夫决策过程MDP、最近几年Transformer驱动的Agent的发展现状综合起来提炼的Agent的核心定义Agent是一个感知环境、与环境交互、并通过自主决策最大化长期累积奖励的实体。这个定义包含了4个核心属性缺一不可感知能力PerceptionAgent必须能感知外部环境的信息——这里的“外部环境”可以是物理世界比如摄像头、麦克风、传感器采集的信息也可以是数字世界比如文本、图片、视频、API返回的结果、用户输入的指令交互能力InteractionAgent必须能与外部环境交互——这里的“交互”可以是物理世界的交互比如机器人的手臂移动、无人机的飞行也可以是数字世界的交互比如回复用户的消息、调用API接口、修改数据库的内容、生成文本/图片/视频自主决策能力Autonomous Decision-MakingAgent必须能根据感知到的环境信息自主做出决策——这里的“自主”是指不需要人类的实时干预当然人类可以给Agent设定目标、规则、奖励函数但具体的决策过程Agent要自己完成长期累积奖励最大化Maximizing Long-Term Cumulative RewardAgent必须有一个明确的“目标函数”——也就是“奖励函数Reward Function”Agent的所有决策都是为了最大化长期累积奖励而不是短期奖励为了让大家更直观地理解这4个核心属性我来举几个例子例子1GPT-4o聊天机器人感知能力能感知用户输入的文本、图片、视频、音频交互能力能回复用户的文本、图片、视频、音频自主决策能力不需要人类实时干预就能自己决定回复什么内容长期累积奖励最大化它的奖励函数是“让人类满意它的回复”——这个奖励函数虽然不是显式写出来的但在预训练和微调阶段OpenAI已经通过海量的人类反馈数据RLHF把这个奖励函数“编码”到了GPT-4o的参数里结论GPT-4o聊天机器人是一个Agent很多人会说“GPT-4o只是一个LLM不是Agent”——这个观点是错误的因为它已经具备了Agent的4个核心属性例子2我那个小范围商用的“选品小助手V3.0”感知能力能感知用户输入的文本、私有向量数据库里的知识、谷歌趋势API返回的结果、亚马逊卖家精灵API返回的结果、1688搜索API返回的结果交互能力能查询向量数据库、调用API接口、生成分析报告、发送PDF邮件自主决策能力不需要人类实时干预就能自己决定“先查什么数据、再调用什么工具、筛选掉哪些子品类、反思哪些内容”长期累积奖励最大化它的奖励函数是“让用户满意它的选品结果”——显式奖励是“用户如果使用了它推荐的子品类并且赚了钱会给它打高分”隐式奖励是“用户如果多次使用它会给它更多的反馈数据让它变得更强大”结论选品小助手V3.0是一个非常典型的Transformer驱动的Agent例子3只会按照规则链回复的传统客服机器人感知能力只能感知用户输入的关键词交互能力只能按照规则链回复预设的文本自主决策能力完全没有——它的所有回复都是规则链决定的没有任何自主思考的空间长期累积奖励最大化完全没有——它没有任何奖励函数不会因为用户满意它的回复而变得更好结论只会按照规则链回复的传统客服机器人不是Agent例子4只会玩Atari游戏的DQN Agent感知能力能感知Atari游戏的屏幕画面交互能力能按下Atari游戏的按键左、右、上、下、开火自主决策能力不需要人类实时干预就能自己决定按下哪个按键长期累积奖励最大化它的奖励函数是“最大化游戏的得分”结论只会玩Atari游戏的DQN Agent是一个传统的强化学习Agent但它的感知能力和交互能力都非常有限只能在特定的数字环境里工作好了现在大家应该已经对Agent的核心定义和4个核心属性有了非常直观的理解——接下来我们来聊聊在Transformer出现之前传统Agent的核心瓶颈有哪些。在Transformer出现之前传统Agent的核心瓶颈在正式聊瓶颈之前我得先给大家介绍一下传统Agent的主要类型——因为不同类型的传统Agent瓶颈也不一样规则链AgentRule-Based Agent也就是我们刚才说的只会按照规则链回复的传统客服机器人是最早出现的Agent类型状态机AgentFinite State Machine, FSM Agent比规则链Agent稍微复杂一点能根据不同的“状态”比如“用户刚进入客服页面”“用户正在问订单问题”“用户正在投诉”选择不同的规则链强化学习AgentReinforcement Learning, RL Agent比如我们刚才说的只会玩Atari游戏的DQN Agent是通过“试错”的方式学习的有显式的奖励函数基于知识图谱的AgentKnowledge Graph, KG Agent比如Google Assistant的早期版本是通过知识图谱存储和查询知识的基于RNN/LSTM的AgentRecurrent Neural Network/Long Short-Term Memory, RNN/LSTM Agent比如Siri的早期版本是通过RNN/LSTM做自然语言理解和生成的接下来我会结合我当年做规则链Agent、状态机Agent、基于RNN/LSTM的Agent踩过的无数坑给大家具象化传统Agent的7个核心瓶颈——这7个瓶颈每一个都是致命的都是Transformer出现之前通用型Agent无法商用化落地的根本原因。瓶颈1感知能力有限无法处理多模态、长序列、模糊的环境信息传统Agent的感知能力非常有限主要体现在以下3个方面1.1 无法处理多模态环境信息传统Agent的感知模块通常只能处理单一模态的环境信息——比如规则链Agent只能处理文本关键词基于RNN/LSTM的Agent只能处理文本序列传统的强化学习Agent只能处理图像序列比如Atari游戏的屏幕画面基于知识图谱的Agent只能处理结构化的知识三元组。如果要让传统Agent处理多模态环境信息比如“用户发了一张衣服的图片问这件衣服在亚马逊北美站能不能卖有没有侵权风险”你需要给每个模态写独立的感知模块比如用CNN处理图片用RNN/LSTM处理文本写一堆高度耦合的“多模态融合规则”比如“如果图片里的衣服有星球大战的Logo并且文本里问的是‘能不能卖’就返回‘不能卖有侵权风险’”哪怕好不容易拼凑出一个能用的稍微改一下多模态融合规则整个系统就崩成渣当年我做过一个“服装侵权检测的传统Agent”用CNN处理衣服的图片用RNN/LSTM处理用户的文本问题用知识图谱存储侵权风险规则——结果呢这个Agent只能处理“图片里的衣服有非常明显的知名品牌Logo并且文本里问的是‘能不能卖’”这种非常简单的场景稍微复杂一点的场景比如“图片里的衣服有和知名品牌非常相似的图案但不是完全一样”“用户发的是一段视频问视频里的衣服有没有侵权风险”准确率就降到了30%以下修复周期要以“周”为单位。1.2 无法处理长序列环境信息传统Agent的感知模块比如RNN/LSTM有一个非常致命的问题长序列依赖消失Long-Term Dependency Vanishing——也就是说当输入的序列长度超过一定的阈值比如1000个tokenRNN/LSTM就会“忘掉”序列前面的信息。当年我做过一个“基于RNN/LSTM的论文写作助手Agent”用户可以输入一篇论文的摘要和前1000个token的正文让Agent帮他续写——结果呢这个Agent续写的内容经常会和论文的摘要、前1000个token的正文完全矛盾比如“摘要里说本文提出了一种新的Transformer变体解决了长序列依赖消失的问题续写的内容却说本文提出了一种新的RNN变体”——为什么会这样因为RNN/LSTM已经“忘掉”了前面的摘要和前1000个token的正文。后来我试了一下LSTM的变体比如GRUGated Recurrent Unit、BiLSTMBidirectional LSTM——结果呢效果稍微好了一点但还是无法处理超过2000个token的长序列而且训练速度非常慢需要用好几块GPU训练好几天。1.3 无法处理模糊的、口语化的环境信息传统Agent的感知模块比如规则链Agent、状态机Agent、基于知识图谱的Agent只能处理结构化的、精确的、书面化的环境信息——如果用户输入的是模糊的、口语化的、有歧义的环境信息比如“我想在亚马逊北美站做点啥预算大概几十万吧利润率要高一点不要太容易被告的最近一段时间卖得比较火的帮我看看有没有合适的”传统Agent根本无法理解只会回复“对不起我听不懂您的意思请您用更精确的语言描述”。当年我做过一个“基于规则链和知识图谱的跨境电商选品助手V1.0”——结果呢这个Agent的用户留存率不到5%因为95%的用户输入的都是模糊的、口语化的、有歧义的指令根本无法理解。瓶颈2交互能力有限无法调用通用的、动态的工具传统Agent的交互能力非常有限主要体现在以下2个方面2.1 只能调用预定义的、静态的工具传统Agent的交互模块比如规则链Agent、状态机Agent只能调用预定义的、静态的、参数格式固定的工具——比如你预定义了一个“订机票的工具”参数格式是“{航空公司‘国航’, 出发地‘北京’, 目的地‘东京’, 出发日期‘2024-06-01’, 乘客人数1}”那这个Agent就只能调用这个参数格式固定的订机票工具如果用户想订“2024年6月1日到6月7日从北京到东京往返的国航机票乘客是2个成人和1个儿童”你需要重新写一个预定义的、静态的、参数格式固定的往返订机票工具还要重新写一堆规则链来匹配用户的指令。当年我做过一个“基于规则链和状态机的出差助手V1.0”——预定义了订机票的工具、订酒店的工具、写日程提醒的工具、翻译邮件的工具——结果呢这个Agent的功能非常僵化稍微改一下用户的需求比如“往返机票改成单程机票酒店改成民宿日程提醒改成微信提醒而不是邮件提醒”整个规则链和状态机就崩成渣修复周期要以“周”为单位。2.2 无法自主选择和组合工具传统Agent的交互模块完全没有“自主选择和组合工具”的能力——比如你预定义了A、B、C三个工具传统Agent只能按照规则链里规定的顺序调用这三个工具不能自主决定“先调用A工具再调用B工具还是先调用C工具再调用A工具”也不能自主决定“调用A工具之后要不要调用B工具”。当年我做过的那个“基于规则链和状态机的出差助手V1.0”——规则链里规定的顺序是“先订机票再订酒店再写日程提醒最后翻译邮件”——结果呢如果用户的指令是“先帮我写日程提醒再订机票最后订酒店”这个Agent根本无法执行只会回复“对不起我只能按照规定的顺序帮您处理”。瓶颈3记忆能力有限无法存储和检索长期的、复杂的、结构化的记忆传统Agent的记忆能力非常有限主要体现在以下3个方面3.1 只能存储短期的、简单的记忆传统Agent的记忆模块比如RNN/LSTM的隐藏状态Hidden State、规则链Agent的临时变量只能存储短期的、简单的、非结构化的记忆——比如RNN/LSTM的隐藏状态最多只能存储几百个token的信息规则链Agent的临时变量最多只能存储几个简单的参数。当年我做过的那个“基于RNN/LSTM的论文写作助手Agent”——用户输入了一篇论文的摘要和前1000个token的正文让Agent帮他续写10000个token的正文——结果呢这个Agent续写的内容写到第2000个token的时候就已经“忘掉”了前面的摘要和前1000个token的正文写到第5000个token的时候就已经“跑题跑到姥姥家去了”。3.2 无法存储和检索长期的、复杂的、结构化的记忆传统Agent的记忆模块完全没有“存储和检索长期的、复杂的、结构化的记忆”的能力——比如你想让Agent记住“老板的日程偏好是每天早上9点到10点开早会每周三下午2点到4点开部门会议不喜欢在周末安排工作喜欢住靠近地铁口的酒店喜欢吃川菜”这些长期的、复杂的、结构化的记忆传统Agent要么只能把这些记忆硬编码在规则链里修改起来非常麻烦要么只能把这些记忆存储在一个简单的数据库里检索起来非常慢而且无法进行语义检索。当年我做过的那个“基于规则链和状态机的出差助手V1.0”——老板的日程偏好是硬编码在规则链里的——结果呢老板有一次说“我最近每周三下午的部门会议改成每周四上午了”我需要修改规则链里的好几十个地方还要重新测试整个系统花了整整一周的时间才改好。3.3 无法进行“反思式记忆检索”传统Agent的记忆模块完全没有“反思式记忆检索”的能力——也就是说Agent不能“回头看”自己之前的决策和交互过程不能从之前的错误中学习不能根据之前的经验优化自己的决策。当年我做过的那个“基于规则链和状态机的出差助手V1.0”——有一次帮老板订了一个靠近地铁口但附近在修路的酒店老板非常不满意——结果呢这个Agent根本不会“记住”这个错误下次还是会帮老板订这个酒店除非我手动修改规则链里的酒店黑名单。瓶颈4推理能力有限无法进行复杂的、多步的、逻辑的推理传统Agent的推理能力非常有限主要体现在以下3个方面4.1 只能进行简单的、单步的、规则的推理传统Agent的推理模块比如规则链Agent、状态机Agent、基于知识图谱的Agent只能进行简单的、单步的、基于规则的推理——比如“如果用户问的是‘订单什么时候发货’并且订单状态是‘已支付’就返回‘您的订单将在24小时内发货’”。如果要让传统Agent进行复杂的、多步的、逻辑的推理比如“用户问的是‘我订的2024年6月1日从北京到东京的国航CA123航班已经支付了什么时候能拿到电子机票电子机票在哪里查有没有延误的可能’”你需要写一堆高度耦合的“多步推理规则链”——哪怕好不容易拼凑出一个能用的稍微改一下用户的问题整个规则链就崩成渣。当年我做过的那个“基于规则链和知识图谱的跨境电商客服助手V1.0”——只能处理简单的、单步的、基于规则的问题稍微复杂一点的、多步的、逻辑的问题准确率就降到了20%以下。4.2 无法进行“常识推理”传统Agent的推理模块完全没有“常识推理”的能力——也就是说Agent不知道“地球是圆的”“人需要吃饭睡觉”“水在0摄氏度以下会结冰”这些人类的常识。当年我做过的那个“基于RNN/LSTM的旅游助手Agent”——有一次用户问的是“我想在2024年12月去北极旅游需要带什么衣服”——结果呢这个Agent续写的内容是“需要带短袖、短裤、凉鞋”——为什么会这样因为它没有“北极在12月非常冷”的常识。4.3 无法进行“创造性推理”传统Agent的推理模块完全没有“创造性推理”的能力——也就是说Agent不能“跳出规则的框框”不能提出新的想法不能解决新的问题。当年我做过的那个“基于规则链和状态机的跨境电商选品助手V1.0”——只能在我预定义的女装子品类里选品不能自主发现新的、卖得比较火的女装子品类。瓶颈5自主决策能力有限无法根据环境的变化动态调整决策传统Agent的自主决策能力非常有限主要体现在以下2个方面5.1 只能按照预定义的规则链/状态机做决策传统Agent的决策模块比如规则链Agent、状态机Agent只能按照预定义的、静态的、不可调整的规则链/状态机做决策——如果环境发生了变化比如“亚马逊北美站的佣金从15%涨到了20%”“国航CA123航班取消了”传统Agent根本无法根据环境的变化动态调整决策只会按照原来的规则链/状态机做决策导致决策错误。当年我做过的那个“基于规则链和状态机的跨境电商选品助手V1.0”——预定义的利润率计算公式是“利润率客单价-拿货价-亚马逊FBA费-平台佣金15%-广告预算/客单价≥30%”——结果呢亚马逊北美站的佣金从15%涨到了20%之后这个Agent还是按照15%的佣金计算利润率导致选出来的子品类的实际利润率只有25%左右老板非常不满意。5.2 无法平衡“探索与利用”的矛盾传统的强化学习Agent虽然有自主决策能力但有一个非常致命的问题无法平衡“探索Exploration与利用Exploitation”的矛盾——“探索”是指尝试新的决策看看能不能获得更高的奖励“利用”是指使用已经验证过的、能获得较高奖励的决策。如果传统的强化学习Agent“探索”得太多就会浪费很多时间在没用的决策上获得的长期累积奖励就会很低如果“利用”得太多就会“陷入局部最优解”无法找到更好的决策获得的长期累积奖励也会很低。当年我做过一个“基于DQN的Atari游戏《吃豆人》Agent”——一开始“探索”得太多玩了100万局游戏得分还不到100分后来把“探索率”调得很低“利用”得太多陷入了局部最优解得分最高只有500分左右而人类玩家的平均得分是1000分左右职业玩家的得分甚至能达到10000分左右。瓶颈6可扩展性有限无法快速添加新的功能、新的工具、新的知识传统Agent的可扩展性非常有限主要体现在以下3个方面6.1 无法快速添加新的功能如果要给传统Agent添加新的功能比如“给选品小助手添加‘抖音电商选品’的功能”“给出差助手添加‘预订火车票’的功能”你需要写一堆新的规则链/状态机写一堆新的感知模块、交互模块、记忆模块、推理模块修改原来的所有模块让它们和新的模块兼容重新测试整个系统整个过程下来需要花好几个工程师好几个月的时间——而且修改原来的模块的时候很容易引入新的bug导致原来的功能崩成渣。当年我做过的那个“基于规则链和状态机的跨境电商选品助手V1.0”——老板让我添加“抖音电商选品”的功能——结果呢我花了整整2个月的时间才勉强把这个功能加上而且原来的“亚马逊北美站选品”的功能还引入了好几个新的bug修复这些bug又花了整整1个月的时间。6.2 无法快速添加新的工具如果要给传统Agent添加新的工具比如“给选品小助手添加‘TikTok趋势API’的工具”“给出差助手添加‘Airbnb预订API’的工具”你需要写一堆新的规则链/状态机来匹配用户的指令写一堆新的代码来调用新的工具修改原来的交互模块让它和新的工具兼容重新测试整个系统整个过程下来需要花好几个工程师好几个星期的时间——而且修改原来的交互模块的时候很容易引入新的bug。当年我做过的那个“基于规则链和状态机的出差助手V1.0”——老板让我添加“Airbnb预订API”的工具——结果呢我花了整整2个星期的时间才勉强把这个功能加上而且原来的“订酒店的工具”还引入了好几个新的bug修复这些bug又花了整整1个星期的时间。6.3 无法快速添加新的知识如果要给传统Agent添加新的知识比如“给选品小助手添加‘2024年亚马逊北美站女装类目的新侵权风险规则’的知识”“给出差助手添加‘2024年日本东京的新地铁线路’的知识”你需要把新的知识整理成结构化的知识三元组如果是基于知识图谱的Agent把新的知识整理成新的规则如果是规则链Agent/状态机Agent修改原来的知识图谱/规则链/状态机重新测试整个系统整个过程下来需要花好几个工程师好几个星期的时间——而且修改原来的知识图谱/规则链/状态机的时候很容易引入新的bug。当年我做过的那个“基于规则链和知识图谱的跨境电商选品助手V1.0”——老板让我添加“2024年亚马逊北美站女装类目的新侵权风险规则”的知识——结果呢我花了整整3个星期的时间才勉强把这些知识整理成规则链和知识三元组而且原来的侵权检测功能还引入了好几个新的bug修复这些bug又花了整整1个星期的时间。瓶颈7泛化能力有限无法在不同的环境、不同的任务、不同的用户群体中通用传统Agent的泛化能力非常有限主要体现在以下3个方面7.1 无法在不同的环境中通用传统Agent只能在特定的、预定义的环境中工作——比如“基于DQN的Atari游戏《吃豆人》Agent”只能在《吃豆人》这个游戏环境中工作不能在《太空侵略者》这个游戏环境中工作“基于规则链和状态机的亚马逊北美站选品助手V1.0”只能在亚马逊北美站这个环境中工作不能在亚马逊欧洲站这个环境中工作。如果要让传统Agent在不同的环境中工作你需要重新写整个感知模块、交互模块、记忆模块、推理模块、决策模块重新训练整个模型如果是基于机器学习的Agent重新测试整个系统整个过程下来和重新开发一个新的Agent没什么区别需要花好几个工程师好几个月的时间。7.2 无法在不同的任务中通用传统Agent只能完成特定的、预定义的任务——比如“基于规则链和状态机的出差助手V1.0”只能完成订机票、订酒店、写日程提醒、翻译邮件这几个预定义的任务不能完成“整理老板的报销单”“给老板的女儿买生日礼物”这几个新的任务。如果要让传统Agent完成不同的任务你需要重新写整个规则链/状态机重新写整个感知模块、交互模块、记忆模块、推理模块、决策模块重新训练整个模型如果是基于机器学习的Agent重新测试整个系统整个过程下来和重新开发一个新的Agent没什么区别需要花好几个工程师好几个月的时间。7.3 无法在不同的用户群体中通用传统Agent只能为特定的、预定义的用户群体服务——比如“基于规则链和状态机的跨境电商选品助手V1.0”只能为做亚马逊北美站女装的卖家服务不能为做亚马逊欧洲站电子产品的卖家服务“基于RNN/LSTM的旅游助手Agent”只能为会说中文的用户服务不能为会说英语的用户服务。如果要让传统Agent为不同的用户群体服务你需要重新写整个规则链/状态机重新写整个感知模块、交互模块、记忆模块、推理模块、决策模块重新训练整个模型如果是基于机器学习的Agent重新测试整个系统整个过程下来和重新开发一个新的Agent没什么区别需要花好几个工程师好几个月的时间。文章未完待续下一章节将进入核心内容Transformer架构的5个核心机制分别解决了传统Agent的哪些瓶颈预计全文总字数将达到12000字左右