人工智能实战:RAG 数据质量怎么治理?从前期发现“召回垃圾内容”到文档评分、入库拦截与质量看板一、问题场景:模型不差,但召回的资料全是垃圾很多 RAG 系统效果不好,团队第一反应是:换 embedding 模型 换 reranker 换更强大模型但前期排查时经常发现:真正的问题是知识库数据质量太差。我见过一个企业知识库,用户问:入职多久有年假?系统召回的不是员工制度正文,而是:目录 页脚 免责声明 修订记录 空白页文字 扫描 OCR 乱码模型拿到这些内容,当然答不好。这类问题的核心不是模型,而是:脏数据进入了向量库。本文解决的问题是:如何在 RAG 入库前发现低质量文档,建立文档质量评分、入库拦截、质量看板和数据修复流程。二、前