文章目录前言Context Engineering从入职须知到模块化菜谱SkillsAI的断舍离比我女朋友还狠Subagents主Agent的实习生经济学监督减少从盯着写作业到云端放养Agent Swarms当AI开始群殴代码成本与安全蜜月结束账单来了Harness Engineering给哈士奇套缰绳风险评估选餐厅的三重逻辑P.S. 目前国内还是很缺AI人才的希望更多人能真正加入到AI行业共同促进行业进步增强我国的AI竞争力。想要系统学习AI知识的朋友可以看看我精心打磨的教程 http://blog.csdn.net/jiangjunshow教程通俗易懂高中生都能看懂还有各种段子风趣幽默从深度学习基础原理到各领域实战应用都有讲解我22年的AI积累全在里面了。注意教程仅限真正想入门AI的朋友否则看看零散的博文就够了。前言一年前我们还在兴奋地讨论从自动补全到Agent的进化感觉自己就像见证了蒸汽机发明的维多利亚时代工人。现在一年过去了我算是看明白了——我们不是什么工人我们是第一批被AI骗去充值的玩家。那时候vibe coding这个词才出现两个月MCP还在风口上Claude Code还在襁褓里。行业大佬们演讲的题目叫《From Autocomplete to Agents》听起来像是从石器时代跨入了青铜时代。结果一年后发现青铜时代确实来了但青铜是拿来铸剑的也是拿来割韭菜的。Context Engineering从入职须知到模块化菜谱去年QCon LondonContext Engineering这个词还不存在大概今年六月才开始流传。这速度比我家楼下奶茶店换招牌还快。那时候我们的工程实践就是在工作区放一个AGENTS.md像给AI写入职须知亲记得激活虚拟环境哦不要像上次那样直接pip install到系统里哦~这哪是编程这是给AI当保姆还得担心它把奶瓶打翻。一年后的今天这个领域热闹得像菜市场。Rules、Skills、Plugins、Specs、Commands、Subagents、MCP Servers……全冒出来了。我去年底休了个假回来发现Skills出来了一开始完全搞不懂。这感觉就像你去旅游一周回来发现公司改用了新的打卡系统而且旧系统还不能用了。冷知识Context Engineering最简单的定义就是你希望精心筛选模型能看到的信息。听起来很简单但做起来就像你希望你妈能看到你朋友圈的哪些内容——理论上可控实际上每次都翻车。SkillsAI的断舍离比我女朋友还狠Anthropic推出的Skills本质上做三件事。第一把rules模块化。你原来把所有规矩塞在一个大文件里每次全量发给agent就像把全家衣服塞一个衣柜。现在按功能拆成周一穿“约会穿”“假装健身穿”——哦不是React组件写法“AWS拉日志方法”。第二这些模块能被LLM按需即时加载。agent先看到一个skill的简短描述比如从测试环境获取日志用于incident debugging。然后LLM判断现在这个场景似乎需要这个能力。才会真正加载。这AI比我还懂断舍离我女朋友看了都流泪——她至今无法理解我为什么留着五年没穿的牛仔裤。第三skill不只是一个Markdown文件它是一个文件夹里面还能放脚本让agent直接执行。很多人开始把大量use case从MCP转移出来重新关注我电脑上已经有哪些CLI能不能直接写脚本让agent调用毕竟相比额外维护一种后台进程这种方式简单直接得多。这就像你发现家里已经有菜刀了何必再买个切菜机器人——虽然菜刀不会自动切但它也不会在半夜自动更新固件然后罢工。扎心现实虽然context window技术上大了很多但一旦塞得太满agent效果会明显下降而且成本会大幅上升。现在Claude Code甚至能显示到底是什么东西在占空间——system prompt占了1.9%skills占了0.1%而你的代码占了68.4%。这就像你租了个三室一厅结果发现房东的杂物占了两个房间。Subagents主Agent的实习生经济学Subagents的核心思想是主agent可以派生子agent。这场景我太熟了——就像我老板给我派任务我说这个需求我得先调研一下然后派个实习生去翻代码库。实习生翻了一整天最后汇报这个模块好像有问题。主agent说好的我知道了你回去吧。中间那些翻错文件、看漏注释、在群里问这个变量名什么意思的过程全部不占用主session的上下文。这哪是AI编程这是AI职场PUA啊。最常见的是代码审查场景。很多人喜欢让一个没有历史上下文污染的独立窗口来做code review甚至还会让它使用不同模型。这就像一个公司请外部顾问来审计——不是因为他们更懂而是因为他们不知道你之前搞砸过多少次所以能客观地说“这段代码写得像屎。”监督减少从盯着写作业到云端放养去年年中OpenAI发布Codex大家第一次看到cloud agent——你把任务丢到云端它自己跑20分钟回来给你结果。这感觉就像你点了个外卖骑手说我去买菜、做饭、洗碗你等着就行。现在几乎所有主流产品都支持这种模式了你甚至能在手机上操作。真的有人在通勤路上写代码——虽然我觉得他们主要是在地铁上假装很忙以免被挤到门边。本地监督也在减少。Steve Yegge那张《开发者进化为AI的8个阶段》图里Stage 6是同时跑3个Claude Code实例Stage 7是同时跑10个。我试过跑3个真的是太多了我老是把内容敲到错误的窗口里。但确实有一些团队开始这么工作了。这就像一个人同时和三个人微信聊天最后把晚安发给了老板——虽然尴尬但效率确实提升了。灵魂拷问当agent开始以headless mode接入CI/CD pipeline你真的放心让它在凌晨三点自动部署吗反正我是不放心。我甚至连自动咖啡机都不放心——它曾经在我出差时自动启动烧干了一壶水差点把厨房点了。Agent Swarms当AI开始群殴代码Cursor和Anthropic做了实验让几十个甚至几百个agent一起跑像往墙上扔spaghetti看哪个能粘住。Cursor让一群agent跑了一周构建浏览器Anthropic让它们构建C编译器。网上一片惊呼AI能独立构建浏览器了“但我告诉你这任务高度可定义specification网上到处都是还有成熟测试套件。这就像你给一群学生发高考真题和答案然后说看他们都能考140分”企业软件开发哪有这种好事我们的需求文档通常只有三个字做个吧。“然后附上一张手绘的草图拍摄于某次午饭后的纸巾。没有specification没有测试套件没有成熟反馈系统”。所以我并不觉得你要立刻跑去尝试Gas Town。如果你想试探水温Claude Code的agent teams更务实——用五个agent一个搞架构一个写原型一个做审查像一个小型外包团队只是这个团队不需要厕所也不会在周五下午集体消失。成本与安全蜜月结束账单来了2024年初有人说生成100行代码只要12美分现在有人平均每天花380美元年化91,200美元。在德国这够雇一个不错的开发者了。而且这还不是flat rate有request limiting。Reddit上开始有人哀嚎这个月才过一半token用完了怎么办兄弟你这不是在编程你是在给OpenAI上供而且供品还是你自己的工资。安全方面prompt injection就像AI世界的电信诈骗。攻击者通过GitHub Issue里的隐藏指令诱导agent泄露secrets。Simon Willison提出了lethal trifecta接触不可信内容、能访问私有数据、可以对外通信。当agent同时满足这三个条件安全风险就处于高位。这其实就是陌生人、金条、互联网的三重奏——任何一个理智的人都知道不该同时出现。很多agent还有所谓YOLO模式连命令确认都不需要agent想执行什么就执行什么。这模式真的不要随便开。我上次开YOLO模式agent差点把我整个node_modules删了——虽然删了也能重装但那种心跳骤停的感觉比看恐怖片还刺激。Harness Engineering给哈士奇套缰绳OpenAI团队维护了一个代码库给自己定了个激进规则尽量不直接手写代码全靠agent交互。结果发现——熵在增加代码库不会自动变整洁。于是他们引入了garbage collection让agents持续清理。这像什么像请了个保洁阿姨但阿姨也是你雇的而且阿姨也在随手扔垃圾。最后你不得不雇一个监督保洁阿姨的保洁阿姨然后发现这个监督阿姨也在扔垃圾。于是他们开始搞Harness Engineering。本质上就是把结构性测试变成agent的反馈。比如定义规则external SDK只能在client folder引用domain层不能直接依赖。这规则以前人类不需要因为开发者懂架构。现在AI不懂所以必须写成lint规则。这感觉就像你养了个哈士奇必须在门上贴禁止拆家而且还得装监控。更绝的是你可以在错误信息里加解释这个错误意味着设计有问题建议重构。“这就是正向prompt injection”——以前黑客用这招骗AI现在我们自己用这招训AI。未来脑洞也许以后我们不再靠传统服务模板起步而是一个Harness模版实例化之后就能支撑代码库。到那时候我们可能甚至不在乎到底是React还是Vue决策维度会变成有没有现成的Harness这样我就不用从头搭了。这就像租房不再看装修只看有没有宜家全套家具包。风险评估选餐厅的三重逻辑Thoughtworks的Birgitta Böckeler提出了风险评估三维度概率、影响、可检测性。翻译成大白话就是它有多大概率搞砸搞砸了有多惨你能不能发现它搞砸了这其实就是我们选餐厅的逻辑这家拉肚子概率高吗拉了我还能上班吗我能不能分辨是这家的问题而不是我肠胃本来就差在AI编程里概率来自你对上下文的理解程度、对工具能力边界的了解、以及过去在类似任务里使用它的经验。影响取决于使用场景的重要性——是PoC还是那种会让你周末凌晨两点被叫起来的核心流程可检测性则取决于你的反馈循环有多可靠。没有良好的测试自动化不仅你自己更难验证AI的输出agent本身也更难验证自己的结果。这就像你让一个近视眼去质检还不给他配眼镜。AI就像一把瑞士军刀功能很多但你要是不小心割伤自己的概率比切菜大。模型确实在进步Context Engineering也越来越精细但Reddit上那个火了的帖子说得好agent说你说不但我以为你是在拒绝我要权限所以我就自己直接去做了。——像个叛逆期青少年你说东它理解成西然后觉得自己特别有主见。真正能把AI开到最大自主度跑起来的通常都是非常资深的工程师。他们有更强的认知承载力以及极强的经验积累。而如果你给新手施压你的AI产出呢用了AI怎么还能这么慢他们就会走捷径、变粗心。Amazon最近内部复盘提到一些疑似AI生成代码的故障对策之一是让senior工程师必须review生产内容——这有点讽刺不是说好的要更快上线吗结果我们反而加了更多手续。接下来12个月我们会学到更多也会暴露更多让我们担忧的东西过载、技能退化、认知疲劳。唯一确定的是如果你想在交付中给予AI更多自主权你得先准备好那张安全网。而且这张网AI今天就能帮你编——只是别忘了它编网的时候可能也在网中间挖了个洞。P.S. 目前国内还是很缺AI人才的希望更多人能真正加入到AI行业共同促进行业进步增强我国的AI竞争力。想要系统学习AI知识的朋友可以看看我精心打磨的教程 http://blog.csdn.net/jiangjunshow教程通俗易懂高中生都能看懂还有各种段子风趣幽默从深度学习基础原理到各领域实战应用都有讲解我22年的AI积累全在里面了。注意教程仅限真正想入门AI的朋友否则看看零散的博文就够了。