字节面试官：如何评估RAG系统？你项目有哪些测评指标？

张

张建站

2026/4/20 23:53:07

10分钟阅读

一、标准答案参考直接上答案在实践落地中RAG项目的测评非常重要我项目使用的是Ragas自动化测评框架把RAG的评估分为四个维度。第一是召回质量就是评估系统有没有检索到正确且相关的文档片段第二是答案忠实度看大模型有没有脱离资料自己乱编答案第三是答案相关性评估大模型的回答是不是解答了用户的问题第四是上下文利用率评估给了大模型那么多的上下文它到底用上了多少内容。二、Ragas测评框架的原理是什么Ragas是非常流行的一个RAG自动化测评框架核心思路是让大模型来做评委在评估过程中用户把问题、RAG检索到的上下文还有大模型生成的答案都给Ragas他就能按预设指标对这次的RAG质量进行打分一般来说在面试中讲到这里已经够了。下面我们在一起深入看下Rags测评指标的底层原理可分为检索阶段和生成阶段两部分。在检索阶段常见的指标是 Context Precision和 Context Recall在生成阶段常见的指标是Answer Correctness、Answer Relevancy和Faithfulness见下图Answer Correctness答案准确率看答案是否正确通过把大模型的回答和参考答案对比看事实、结论、关键点是否一致。核心是结果对不对。Answer Relevancy答案相关性看答案是否切题就算内容本身没错如果没有正面回答用户问题、答偏了或者答得太泛也会相关性低。核心是有没有回答到用户真正问的点。Faithfulness答案忠实度评估答案是否基于给定的上下文也就是回答里的内容能不能从检索到的材料里找到依据是否“有据可依”而不是模型自己脑补出来。核心是有没有幻觉是否被上下文支撑。Context Precision上下文检索准确率评估RAG的检索结果里“真正有用的内容”占比高不高如果检索回来的 10 段里只有 2 段相关Precision得分就低如果大多数都相关就得分高。核心是检索是否够准噪声多不多。Context Recall上下文召回率指检索结果有没有把回答问题所需的信息尽量找全如果回答问题需要 3 个关键证据但只检索到 1 个Recall 就低。核心是检索是否够全关键材料有没有漏掉。检索精度和召回率的例子可以见下图学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

手机变随身Linux服务器：用Termux+Ubuntu搭建个人网盘/博客的踩坑实录

手机变随身Linux服务器：用TermuxUbuntu搭建个人网盘/博客的踩坑实录你是否想过，口袋里那台每天陪伴你的智能手机，其实可以变身为一台24小时在线的微型服务器？不需要昂贵的云服务，不需要复杂的硬件配置，只需…...

2026/4/20 23:52:54 阅读更多 →

CN3600 PFM 降压模式单节镍氢电池充电管理集成电路

概述： CN3600是一款固定关断时间的PFM模式降压单节镍氢电池充电管理集成电路。CN3600输入电压范围2.7V到6.5V，外部元器件少，应用简单，非常适合单节镍氢电池充电管理应用。 CN3600采用恒流和维持充电模式对单节镍氢电池进行充电。上…...

2026/4/20 23:52:37 阅读更多 →

别再为ABB IRB 1600-6/1.45的DH参数头疼了：一份实测可用的改进MDH参数与C++代码分享

ABB IRB 1600-6/1.45机器人运动学实战：改进MDH参数与高效C实现当你在深夜调试ABB IRB 1600-6/1.45机器人的运动学算法时，是否曾被官方文档中缺失的标准DH参数困扰？作为工业机器人应用工程师，我们经常需要在RobotStudio之外进行算…...

2026/4/20 23:52:36 阅读更多 →

告别UI管理混乱：DoozyUI的UICanvas与UIView如何帮你构建可维护的Unity项目架构

告别UI管理混乱：DoozyUI的UICanvas与UIView如何帮你构建可维护的Unity项目架构在开发中大型Unity项目时，UI系统的复杂度往往随着功能迭代呈指数级增长。当项目包含多个场景、数十个界面和数百个交互元素时，开发者常会遇到以下典型问题&#…...

2026/4/20 4:09:28 阅读更多 →

C语言之整型常量后缀探秘：从1ULL/1UL/1L到跨平台编程(五十五)

1. 整型常量后缀的底层原理第一次看到1ULL这种写法时，我盯着屏幕愣了三秒——数字后面加字母是什么黑魔法？直到在32位系统上调试一个计数器溢出bug后，才真正理解这些后缀的重要性。整型常量后缀实际上是告诉编译器："别用默认…...

2026/4/20 7:00:24 阅读更多 →

VisionMaster企业实操训练系列课程

VisionMaster企业实操训练系列课程主要出于，快速会设计视觉引导定位项目引导定位原理原理演示 1.单相机带角度定位引导 2.12点标定 3.单点抓取 4.上下相机对位引导 5.单相机带角度定位引导（相机在机械手上）...

2026/4/20 0:14:41 阅读更多 →

C#怎么限制Task最大并发数_C#如何自定义TaskScheduler【进阶】

SemaphoreSlim 是控制 Task 并发数最直接轻量的选择，通过异步闸门限制同时执行任务数，需配对 WaitAsync() 和 Release() 并在 finally 中确保释放；自定义 TaskScheduler 适用场景极窄，ParallelOptions.MaxDegreeOfParallelism 仅适…...

2026/4/20 6:29:58 阅读更多 →