把1500个业务的大迁移,做成了可复用流水线用 Skill+Agent+Rule,省下 60 人年的实战复盘
当AI自我感觉良好地宣告零错误并差点因此搞崩整个平台时我意识到必须给它装上一个‘安检机’。你有没有过这种经历 老板甩给你一个大项目1500 个业务要从旧平台迁到新平台时间线“越快越好”。 你打开第一个业务的代码发现是 1900 行没人看得懂的 Lua 脚本里面藏着 100 多条规则横跨 5 个上游服务。 一算账纯人工干的话要 78 人年 —— 换句话说你一个人干要干到退休。这不是段子是我上个月刚经历的真实故事。 而现在我们把这个 “不可能的任务”做成了一套可复用的流水线 不用再每个业务从头写代码不用再跟 AI 斗智斗勇甚至下一次做迁移这套东西直接就能用。 到现在我们已经省下了 8 人年规划里还要再省 52 人年6 个业务、402 条规则最后做到了 0 错误交付。今天把整个复盘整理给你不管你是做迁移项目还是想把 AI 做成可复用的工程这篇都能直接抄作业。当老板甩给我 1500 个迁移任务我差点以为要加班到退休刚接这个任务的时候我跟所有人一样先试了最常规的办法先试试纯手工梳理结果一个只有 9 条规则的简单业务我整整干了 2 天。照这个速度1500 个业务我直接开始算退休年龄了。然后试试 AI把代码丢给 Cursor、Claude让它自由发挥。结果呢AI 输出的东西 “看着全对”实际字段映射、服务穿透一半都是错的 —— 就像你找了个临时工帮你打包他把你的袜子和碗装一个箱子还跟你说 “我都装好了啊”。那我写个 Prompt 模板总行了吧我把要做的事一条一条写清楚让 AI 照着做。结果呢新业务总有那么点儿小变化比如多了个特殊的服务整个 Prompt 直接失效又得重新改模板。折腾了一周我才发现问题在哪 我之前都是把 AI 当 “临时工”用一次扔一次每次新业务都要重新教一遍 “这个事要怎么做”。 但如果我能把这些经验沉淀下来做成一套 “标准化的操作流程”是不是就不用每次都重新招人、重新教了我悟了把 AI 当搬家公司而不是临时工转折点就是我想通了做 AI 工程跟开搬家公司是一个道理。 你不能每次搬家都临时找几个人你得有一套固定的班底标准清单Rule所有搬家的人都必须遵守的规矩 —— 比如衣服要折叠装箱易碎品要垫缓冲棉箱子要按房间贴标签。没有这个规矩你给工人再好的工具他也会给你乱装。工具箱Skill打包带、气泡膜、叉车、手推车 —— 这些工具是通用的不管搬谁家都能用。你不用每次搬家都重新制作打包带拿过来用就行。管家Agent负责调度的人他知道什么时候用什么工具先让工人用打包带打包然后用叉车装车到了新家再卸车摆东西。他把所有的工具和人串起来不用你自己盯着。这就是我们说的 Harness 工程的三块拼图RuleSkillAgent。 原来我是每次都找临时工现在我有了一整套标准化的搬家公司不管有多少户要搬家直接按流程走就行。四步流水线把 1 个月的活压缩到半天null梳理阶段 分类打包把旧业务里的规则、字段一个个拆出来按标准分类打包好做成标准化的 CSV 文件。迁移阶段 搬运新家把打包好的文件转换成新平台能看懂的 JSON 格式搬到新平台里。空跑验证 试摆布局把东西都搬进去之后先摆一遍试试看看跟原来的布局一不一样有没有东西放错了。灰度上线 逐步归位没问题了再慢慢把所有的东西都归位正式上线。原来最复杂的业务人工干的话这四步要 1 个月 —— 梳理 5 天迁移 5 天空跑 5 天灰度 5 天。 现在呢前两个阶段已经完全自动化了梳理只要 0.5 天迁移只要 0.5 天复杂业务的整体工时直接降到了 6 天提效 60%。而最关键的是剩下的 1300 个简单业务原来的瓶颈是空跑验证 —— 人工要 10 天现在我们正在把空跑也做成 Agent 自动化做完之后空跑只要 1 天这 1300 个业务的工时直接从 12 天砍到 4 天这就是能撬动 52 人年收益的核心。769 个隐藏错误AI 说 “我没错”结果差点搞崩整个平台做这个项目我踩过最吓人的一个坑就是 AI 的 “自我感觉良好”。 有一次我跑完整个流水线6 个业务的校验全过了显示 0 错误我开开心心准备交付。 结果我拿标杆业务一对发现 4 列格式全错规则编号带了前缀动作函数带了参数节点 ID 带了层级逻辑关系列只填了个 AND。 这些错误AI 自己根本发现不了它觉得 “我输出的东西没问题啊”但如果这些东西流到新平台直接就会把整个平台搞崩。就像你打包完临时工跟你说 “都装好了”你信了结果到了新家打开箱子才发现里面混了一堆违规的东西根本没法用。那怎么办我给这套流水线加了个 “安检机”——21 项质量门禁分 4 层先查结构你的表格列数对不对表头对不对再查格式你的编号是不是纯数字函数名是不是符合要求再查内容你的服务 ID 是不是真实的加工逻辑对不对最后查 JSON你的新平台配置是不是完整的就这一步直接把之前那 6 个业务里藏着的 769 个错误全揪出来了 然后 AI 自动修复最后所有错误全清做到了 0 错误交付。 原来我以为 AI 说没问题就是没问题现在才知道必须给它加个安检机不然它真的会把垃圾都给你送过来。踩过 5 个大坑我把这些教训全给你整理好了整个项目做下来我踩了 5 个特别典型的坑今天全给你列出来别再踩了别凭直觉理解规则我之前把 “逻辑关系” 列当成了 SQL 的连接符结果 AI 就只填了个 AND后来才发现这个列要填完整的 Lua 表达式每行都要重复完整的内容 —— 就像你摆碗本来要每个碗都标清楚整套的顺序结果你只在中间写了个 “和”别人根本不知道顺序。别用兜底文本甩锅我之前写脚本的时候搞不懂的字段就写了个 “详见源码”结果这些文本直接进到了新平台的配置里新平台的 AI 根本看不懂 —— 就像你打包的时候不知道里面是啥就写了个 “里面有啥自己看”到了新家别人根本打不开。标杆也不是完美的我拿最稳定的业务当标杆结果加了校验之后标杆自己反而被拦下了 5 个错 —— 原来标杆里也有几个特殊的服务被我误判了。所以校验不能全信标杆要留白名单。续行要写完整内容之前我以为多条件的话续行只要写连接符就行结果根本不是续行要重复完整的表达式不然别人看不懂。质量门禁要早加我一开始觉得先跑通主流程最后再加校验结果发现 6 个业务全部要返工。后来才知道AI 工程要测试驱动先写校验再写产出不然 AI 会给你堆一堆垃圾。算笔账这套流水线帮我们省下了 60 人年最后我们来算一笔实实在在的账 如果纯人工干这 1500 个业务总共要 18600 人天折合成 78 人年 —— 这是原来的基线。 现在我们做了半自动化的流水线已经把总工时降到了 70 人年省下了 8 人年。 等我们把空跑验证的 Agent 也做完实现全自动的流水线总工时只要 18 人年总共能省下 60 人年。这是什么概念 相当于我们把一个人 60 年的工作量压缩到了 18 年或者说60 个工程师不用花一整年的时间来做这个枯燥的迁移工作他们可以去做更有价值的事。而且最棒的是这套东西不是用完就扔的。 下次我们再做别的迁移项目Rule、Skill、Agent 这些东西改改参数就能直接用不用再从头做一遍。 这就是把一个一次性的项目变成了可复用的能力。最后给你一份能直接抄的作业清单如果你也正在做类似的项目这 10 条清单你直接拿走起步前✅ 先找你的“黄金标杆”选一个最稳定、最规范的业务当对照 ✅ 先定死你的 Schema列名、顺序、枚举值写死在 Rule 里谁都不能改 ✅ 先画好你的四阶段流水线每个阶段的输入输出、用什么 Agent、什么 Skill先理清楚设计中✅ Rule 只写全局硬约束别写业务逻辑 ✅ Skill 要能独立测试用脚本别纯靠 LLM 调用 ✅ Agent 之间用文件通信别依赖内存状态 ✅ 质量门禁一定要前置第一阶段做完就校验别等到最后上线前✅ 跑通至少 3 个不同规模的业务小中大都测一遍 ✅ 校验脚本要能通过标杆自测不然说明校验有 Bug ✅ 测一遍打回循环故意造个错看看流水线能不能自动修复我还把整个工程模板都整理好了1 个 Rule 文件、4 个 Skill、5 个 Agent、4499 行可运行的脚本还有 6 个业务的完整示例你要是需要评论区留个言就能拿。聊聊你的经历如果你也正在做迁移项目或者正在尝试把 AI 做成可复用的流水线你遇到过最头疼的问题是什么 是 AI 的 “自由发挥” 乱改格式还是质量校验怎么都做不好还是空跑验证的瓶颈一直解决不了评论区聊聊你的经历我把整理好的完整工程模板分享给你