RAG实战:给AI接上私有知识库的完整方案
RAG 是什么一句话类比RAGRetrieval-Augmented Generation 先检索再生成。类比RAG 就像开卷考试。模型本身是那个能写文章的学生知识库是那一堆参考书。考试时不靠死记硬背而是先翻书找到相关段落再用自己的理解写答案。没有 RAG 的 AI 是闭卷考——它只能答它训练时见过的内容。为什么不直接 Fine-tuning这是大家最常问的问题。Fine-tuning 训练的是「风格和能力」不是「知识」。维度RAGFine-tuning知识更新改向量库秒级生效重新训练几小时到几天成本低API 向量DB高GPU 算力幻觉风险可溯源能引用原文模型可能「记错」适用场景私有知识、频繁更新专业语气、特定格式输出结论知识库类需求首选 RAG想让模型说话更像你们品牌才考虑 Fine-tuning。RAG 完整流程拆解RAG 分两个阶段索引阶段离线和查询阶段在线。索引阶段一次性/更新时 文档 → 分块(Chunking) → 向量化(Embedding) → 存入向量数据库 查询阶段每次对话 用户提问 → 向量化 → 相似度检索 → 取出 Top-K 段落 → 拼进 Prompt → LLM 生成回答第一关文档分块Chunking分块策略直接决定检索质量但大多数人第一次都搞错了。固定长度分块最常见但有问题fromimport# 最常见写法按字符数切分1000# 每块最多1000字符200# 相邻块重叠200字符防止语义断裂\n\n\n。 ❌ 常见错误chunk_overlap0→ 一个完整句子被切成两半检索时两半都不完整模型无法理解✅ 正确做法chunk_overlap设为chunk_size的 10%-20%→ 语义完整相邻块有重叠保护语义分块效果更好稍复杂fromimportfromimport# 按语义相似度自动切分不按字符数硬切percentile# 超过85%相似度阈值才切分85# 输出的每个 chunk 语义上都是完整的✅ 语义分块在技术文档、法律合同这类强结构文本效果明显更好❌ 但速度更慢每次都要调用 Embedding适合离线批量处理第二关向量化EmbeddingEmbedding 是把文本变成一串数字向量语义相近的文本向量距离更近。类比把每段文字映射到一个 1536 维的空间里「苹果手机」和「iPhone」在这个空间里距离很近和「橙子」距离远。选 Embedding 模型# 方案AOpenAI text-embedding-3-small性价比最高推荐fromimporttext-embedding-3-small# 1536维比 ada-002 便宜5倍# modeltext-embedding-3-large, # 精度更高贵3倍一般用不到# 方案B本地模型零成本但精度稍差fromimportBAAI/bge-m3# 多语言中文效果好devicecpu# 测试一下两段近义句向量距离应该很小如何重置密码忘记密码怎么办# 这两个向量的余弦相似度应该 0.9关键原则索引时用什么 Embedding查询时必须用同一个——不能混用。向量数据库选型数据库适用场景特点Chroma本地开发、原型验证零配置纯 PythonQdrant生产环境推荐性能好支持过滤Pinecone云服务快速上线全托管按量付费pgvector已有 PostgreSQL不用新增基础设施# Chroma 本地版开发用fromimport./chroma_db# 本地持久化my_knowledge_base# Qdrant 生产版fromimportimporthttp://localhost:6333my_knowledge_base第三关检索策略大多数 RAG 系统检索效果差不是因为 Embedding 模型不好而是检索策略太简单。基础检索相似度搜索# 最基础返回最相似的4个chunk如何申请年假4# 带分数能看到每个 chunk 的相似度0-1越高越相关如何申请年假4forinprintf相似度: {score:.3f} | 内容: {doc.page_content[:50]}...进阶检索MMR最大边际相关性❌ 纯相似度搜索的问题Top-4 可能都是在说同一件事高度重复✅ MMR 在保证相关性的同时最大化结果多样性# MMR 检索相关 不重复如何申请年假4# 返回4个20# 先取20个候选再从中选4个最多样的0.7# 0最多样1最相关0.5-0.7 效果最好混合检索向量 关键词生产推荐fromimportfromimport# 关键词检索BM25对专有名词、型号特别有效4# 向量检索k4# 混合各取 50%0.50.5# 可调专有名词多时提高 BM25 权重iPhone 14 的电池容量是多少# BM25 精准匹配「iPhone 14」向量找到语义相关段落两者互补第四关完整 RAG Chain 搭建把前面所有环节串起来搭一个可以直接上生产的 RAG Chainfromimportfromimportfromimportfromimportfromimport# 1. 初始化组件gpt-4o-mini0text-embedding-3-small./chroma_dbmy_knowledge_basemmrk4fetch_k20# 2. RAG Prompt关键要求模型基于上下文回答你是一个专业的知识库助手。请根据以下检索到的上下文回答用户问题。**规则**- 只基于提供的上下文回答不要编造- 如果上下文中没有相关信息直接说「根据现有资料我找不到这个问题的答案」- 回答要简洁直接引用原文时用引号**检索到的上下文**{context}**用户问题**{question}# 3. 格式化检索结果多个 chunk 拼在一起defformat_docsdocsreturn\n\n---\n\nf[来源: {doc.metadata.get(source, 未知)}]\n{doc.page_content}forin# 4. 组装 ChainLCEL 写法context# 检索 → 格式化question# 问题直接传入# 5. 使用我们公司的年假政策是什么print带来源引用的版本fromimport# 同时返回答案和来源文档answersource_documents# 保留原始 chunk年假怎么申请print答案answerprint\n引用来源forinsource_documentsprintf - {doc.metadata.get(source, 未知)}: {doc.page_content[:80]}...第五关文档入库工程化把文档批量处理入库这才是生产中最麻烦的部分importfromimportfromimportfromimportdefload_documentsdocs_dir: strlist支持 PDF、Word、TXT、Markdown 混合入库.pdf.docx.txt.mdforin*ifinstr# 给每个 chunk 打上来源标记forinsourcefile_pathstrprintf✅ 已加载: {file_path.name} ({len(docs)} 段)returndefbuild_knowledge_basedocs_dir: str, persist_dir: str一键构建知识库# 加载文档printf\n共加载 {len(raw_docs)} 个文档片段# 分块800150\n\n\n。printf分块后共 {len(chunks)} 个 chunk# 向量化入库分批处理避免 API 限流text-embedding-3-small# 批量处理每批 100 个100Noneforinrange0lenifisNoneknowledge_baseelseprintf进度: {min(ibatch_size, len(chunks))}/{len(chunks)}printf\n✅ 知识库构建完成共 {len(chunks)} 个向量return# 使用./docs./chroma_db常见坑踩过才知道坑1Chunk 太大检索噪音多❌chunk_size3000一个 chunk 包含了太多无关内容检索出来的段落「离题」✅ 推荐chunk_size600-1000回答简单问题用小 chunk需要完整上下文时用k6坑2相同文档重复入库# ❌ 每次启动都重新入库向量越来越多# ✅ 检查是否已有数据有就直接加载ifandprint加载已有向量库elseprint新建向量库坑3提问语言和文档语言不一致❌ 文档是中文用英文查询 → 相似度打分错乱✅ 用多语言 EmbeddingBAAI/bge-m3或在检索前把提问翻译成文档语言坑4Top-K 太少关键信息检索不到❌k2覆盖太少问题涉及多个段落时漏答✅ 生产环境推荐k4~6token 允许的情况下宁多不少坑5Prompt 没有「只基于上下文回答」约束❌ 没加限制 → 模型结合自己训练知识和检索结果混答无法区分哪些是你的文档里有的✅ 明确写「只基于以下上下文没有就说没有」——这一句能把幻觉降低 80%发布前自查清单Embedding 模型索引和查询时一致chunk_overlap≥chunk_size的 10%每个文档 chunk 打了来源 metadataPrompt 中有「只基于上下文」约束检索数量k≥ 4重复入库已做幂等检查混合检索BM25 向量用于专有名词多的场景最后我在一线科技企业深耕十二载见证过太多因技术更迭而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我整理出这套 AI 大模型突围资料包✅AI大模型学习路线图✅Agent行业报告✅100集大模型视频教程✅大模型书籍PDF✅DeepSeek教程✅AI产品经理入门资料完整的大模型学习和面试资料已经上传带到CSDN的官方了有需要的朋友可以扫描下方二维码免费领取【保证100%免费】为什么说现在普通人就业/升职加薪的首选是AI大模型人工智能技术的爆发式增长正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议到全国两会关于AI产业发展的政策聚焦再到招聘会上排起的长队AI的热度已从技术领域渗透到就业市场的每一个角落。智联招聘的最新数据给出了最直观的印证2025年2月AI领域求职人数同比增幅突破200%远超其他行业平均水平整个人工智能行业的求职增速达到33.4%位居各行业榜首其中人工智能工程师岗位的求职热度更是飙升69.6%。AI产业的快速扩张也让人才供需矛盾愈发突出。麦肯锡报告明确预测到2030年中国AI专业人才需求将达600万人人才缺口可能高达400万人这一缺口不仅存在于核心技术领域更蔓延至产业应用的各个环节。资料包有什么①从入门到精通的全套视频教程⑤⑥包含提示词工程、RAG、Agent等技术点② AI大模型学习路线图还有视频解说全过程AI大模型学习路线③学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的④各大厂大模型面试题目详解⑤ 这些资料真的有用吗?这份资料由我和鲁为民博士共同整理鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。所有的视频教程由智泊AI老师录制且资料与智泊AI共享相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念通过动态追踪大模型开发、数据标注伦理等前沿技术趋势构建起前沿课程智能实训精准就业的高效培养体系。课堂上不光教理论还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作把课本知识变成真本事如果说你是以下人群中的其中一类都可以来智泊AI学习人工智能找到高薪工作一次小小的“投资”换来的是终身受益应届毕业生无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。零基础转型非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界。业务赋能 突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型。获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】**