点击上方 前端Q关注公众号回复加群加入前端Q技术交流群从这一篇开始进入 Harness 七层的第五层Eval Harness。前面四个模块解决了给模型看什么Context、让模型怎么动手Tool、多步怎么协调Workflow。但还有一个问题一直在被回避你改完之后效果到底是变好了还是变差了说实话大部分做 AI 产品的团队在这个问题上是靠感觉的。改了 Prompt跑两个 case 看看觉得好像还行就上线了。直到有一天用户反馈以前能答对的问题现在答不对了才发现改坏了。这就是 Eval评测要解决的问题。为什么 AI 评测和传统测试完全不同