公司知识库全传太贵？RAG 只给 Claude 看几段

张

张建站

2026/5/4 13:55:30

10分钟阅读

你问 Claude我们的退款流程是什么?它不知道因为大模型训练结束后知识就固定了你公司内部的文档它一概不知道。直接把公司知识库都塞进对话几百页文档几十万 token每次提问都要带着既贵又慢还会撑爆 Context Window。RAG 的解法每次提问时只捞出相关的几段而不是全部塞进去。RAG 的完整流程RAG 分两个阶段入库只做一次和检索每次提问时。阶段一入库你的文档PDF、Word、数据库记录... ↓ 切块把长文档切成几百字的小段太长语义会稀释太短上下文不足 ↓ 送进 Embedding 模型每段文字 → 一个高维向量如 1536 维的浮点数组 ↓ 写入向量数据库存向量原始文本来源信息数据更新时重新跑一遍平时不需要动。阶段二检索用户提问怎么退款 → 同一个 Embedding 模型把问题也转成向量 → 在向量数据库里做近似最近邻搜索ANN找语义最相近的 3~5 段内容 → 把这几段原文用户问题拼成 prompt → 发给 Claude → Claude 基于这几段内容回答Embedding 是什么先说向量。地图上的位置可以用两个数字表示(纬度, 经度)比如北京是 (39.9, 116.4)。加上海拔就变成三维(39.9, 116.4, 43.0)。维度可以继续增加每个维度代表一个属性。Embedding 做的事情相同只是把文字映射到一个 1536 维的空间里——每个维度代表某种语义特征比如与金融相关程度、“与流程相关程度”……模型训练完成后知道怎么把文字转成这 1536 个数字。关键性质语义相近的文字坐标也相近。简化示意实际是 1536 维「怎么退款」 → [0.82, 0.71, -0.34, ...]「退货流程说明」 → [0.79, 0.68, -0.31, ...] ← 数值接近语义相近「公司年会安排」 → [0.12, 0.95, 0.87, ...] ← 数值差远语义不相关检索时把用户问题也转成坐标找距离最近的几个——语义最相关的几段就找出来了。这也是向量搜索和关键词搜索的区别「怎么退款」和「退货流程说明」关键词不同但坐标相近向量搜索能命中关键词搜索找「退款」库里存的是「退货」就查不到。入库和查询必须用同一个 Embedding 模型否则向量空间不同相似度计算没有意义。常用 Embedding 模型模型提供方维度特点text-embedding-3-smallOpenAI1536便宜够用text-embedding-3-largeOpenAI3072精度更高bge-m3BAAI开源1024支持中文可本地部署Claude 系列暂无 Embedding 模型用 Claude 做 RAG 时 Embedding 通常用 OpenAI 或开源模型。向量数据库存什么每条记录包含三部分向量由 Embedding 模型生成用于相似度计算原始文本检索命中后塞进 prompt 的实际内容metadata来源文件、页码、时间等用于过滤和溯源原文我们的服务部署在 K8s 上每次发版需要审批 → Embedding 模型处理 → [0.023, -0.187, 0.641, ...]1536 个浮点数 → 存入向量数据库附带原文和来源信息常用向量数据库数据库定位适合场景Chroma开源轻量本地开发零配置pgvectorPostgreSQL 扩展已有 PG 的项目无需引入新系统Pinecone云托管快速上线无需运维Qdrant开源Rust 编写性能好适合自托管Weaviate开源可自托管支持混合搜索向量关键词内置 embedding 模块Milvus开源大规模亿级向量企业场景个人项目用 Chroma已有 PostgreSQL 用 pgvector生产规模大用 Pinecone。RAG 消耗什么 token检索步骤发生在你自己的服务器Anthropic 不参与、不计费。检索到的文档片段塞进 prompt 后按正常输入 token 计费。用户请求 → 你的服务器向量检索不计费 → 查到 3 段相关文档拼成 prompt → 发给 Anthropic开始计费 → 输入 tokensystem prompt 历史 3 段文档问题 → 输出 tokenClaude 生成的回答RAG 省的是那些不相关的文档 token——从每次带着整本手册缩减为只传相关的几段。注意RAG 不是 Claude Code 内置功能Claude Code 本身没有 RAG它直接用Read/Glob/Grep工具读文件。 RAG 是你用 Claude API自己开发应用时的架构模式适合做企业内部知识库问答、产品文档助手、客服机器人、历史工单智能支持等。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

如何零基础使用OpenDroneMap？无人机数据处理终极指南

如何零基础使用OpenDroneMap？无人机数据处理终极指南【免费下载链接】ODM A command line toolkit to generate maps, point clouds, 3D models and DEMs from drone, balloon or kite images. 📷 项目地址: https://gitcode.com/gh_mirrors/od/ODM …...

2026/5/4 13:54:28 阅读更多 →

Speechless：一键备份微博到PDF的终极Chrome扩展指南

Speechless：一键备份微博到PDF的终极Chrome扩展指南【免费下载链接】Speechless 把新浪微博的内容，导出成 PDF 文件进行备份的 Chrome Extension。项目地址: https://gitcode.com/gh_mirrors/sp/Speechless 你是否曾担心精心发布的微博内容某天…...

2026/5/4 13:53:26 阅读更多 →