人工智能实战:大模型 Badcase 系统怎么搭?从线上问题截图到可复盘、可分类、可回归的质量闭环一、问题场景:用户发来一张截图,团队却不知道怎么复现大模型系统上线后,业务方最常见的反馈方式是:AI 又答错了,你们看一下。然后发来一张截图。截图里可能只有:用户问题 AI 回答 一点上下文但开发真正排查时需要的是:trace_id 原始问题 改写问题 召回文档 Prompt 版本 模型版本 知识库版本 输出结果 引用资料 用户反馈如果这些信息没有被系统化记录,Badcase 就只能靠人工猜。我见过一个 RAG 系统,业务方反馈:AI 把销售客户拜访报销标准答错了。开发一开始以为是 Prompt 问题,改了半天没效果。后来查链路才发现:retrieved_docs 里根本没有 sales_policy真正问题是召回失败,而不是生成失败。这说明