大模型在垂直领域知识不足、知识时效性差及幻觉问题严重。本文介绍了RAG检索增强生成技术通过结合知识库为模型配置资料室实现知识补充。详细阐述了文档加载、分割、词嵌入、存储及检索等步骤强调了数据质量和检索质量是RAG效果的关键。对于想要提升大模型应用能力的小白和程序员本文提供了实用的技术指导和代码案例。“RAG检索增强生成是为了解决大模型知识不足的问题”大模型主要面临三个问题垂直领域内的知识不足‍‍‍‍‍大模型知识有时间限制‍大模型幻觉问题第一个问题产生的原因是因为没有经过垂直领域数据训练的大模型普遍表现不好其次是目前的大模型采用的是预训练模式也就是说需要先收集训练数据进行训练但只能收集之前的数据不能收集当前和以后的数据最后就是大模型幻觉问题幻觉问题产生的原因就是知识不足导致在一些领域问题中一本正经的胡说八道。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍因此说到底大模型产生以上三个问题的主要原因就是知识不足因此RAG——检索增强生成技术就出现了。‍‍‍‍‍‍‍‍‍‍‍RAG技术配合知识库技术就能够补充大模型知识不足的问题知识库的作用就相当于给大模型配置一个资料室遇到不懂的就去资料室里查。今天我们就来讨论一下本地知识库的实现步骤以及代码。‍‍‍‍‍‍‍‍‍‍‍知识库的实现步骤及代码‍‍‍‍‍‍‍‍‍严格来说解决大模型知识不足问题的技术是RAG——检索增强生成而不是知识库技术。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍知识库技术在大模型之前就已经出现了简单来说就是公司内部的文档系统里面记录了企业内部的资料文档等形式可以是一个web系统甚至就是一个文件夹。‍‍而我们今天说的大模型知识库是基于RAG技术结合知识库技术产生的一个变种主要区别就是数据格式问题。RAG文档检索生成就是通过把资料向量化并为了提升查询效率需要把向量化的文档存入到向量数据库然后每次在问大模型之前先去向量数据库中查询与问题相关的内容通过提示词的方式一并传入到大模型中这样就可以解决大模型知识不足的问题。之所以要把资料向量化的原因是在传统的查询搜索过程中使用的主要是基于字符匹配的方式进行查询比如说你想查询西红柿炒蛋的做法查询的内容中就必须包含西红柿和炒蛋这几个字。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍而有了大模型技术把资料向量化之后就可以通过语义进行查询大模型会根据语义分析知道西红柿和番茄是一个东西。‍‍‍大模型知识库的原理就是给大模型外挂一个资料库但大模型毕竟不是人需要把资料文档等转化为大模型能够识别的格式就是文档向量化。搭建大模型知识库需要经过以下几个步骤文档加载在当今互联网时代知识的形式多种多样比如文本格式的就是txtwordpdf等还有其它格式如图片结构化数据以及非结构化数据等。‍‍‍‍‍‍‍‍‍‍‍因此打造一个知识库需要支持多种文档以及不同文档的加载路径如本地加载网络加载等而这就是文档加载需要解决的问题。‍文档分割在大模型应用中长文本处理是一个问题并且大模型窗口都有上下文长度限制并且文档还需要处理成大模型能够识别的向量格式因此对一些长文本文档需要进行文本分割解决文档过长而导致的问题。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍文档分割根据不同的任务场景需要进行不同的处理比如文档分割的长度分割形式(比如段落标点符号等)重叠长度等。‍‍‍‍‍词嵌入在传统的知识库系统中文档是以文本图片视频等格式存在的使用者主要是人因此只需要能够通过网络加载文档即可。但在大模型应用中大模型不认识字它能够处理的格式只有向量。而且还需要进行语义分析因此需要通过词嵌入的方式把文档转化为大模型能够处理的且语义连贯的形式也就是向量格式而这个技术就叫做词嵌入。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍词嵌入工具本质上也是一个大模型只不过是专门训练用来完成语义理解和向量转化的模型。‍Sentence-transformer 词嵌入python 库 可以支持多种嵌入模型 或者可以使用第三方提供的转化工具比如openAI通义千问等。文档处理整体流程入下图所示‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍文档存储文档存储的功能就是需要把通过词嵌入转化的大模型能够识别的向量格式存储起来一般使用的是向量数据库。‍‍‍‍当大模型需要使用的时候再通过检索的形式从向量数据库中获取。‍‍‍‍‍‍‍文档存储的作用是为了解决查询效率的问题但也并不是必须的比如说当你知识库的内容很少的时候你也可以选择每次提问的时候重新加载文档并向量化这样之前向量化过的文档就存储在向量数据库中下次使用的时候就可以直接从数据库中查询。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍就类似于在web开发中你也可以把用户数据通过或某种符合间隔起来并保存到txt文件中每次查询的时候需要读取文件并解析数据这样就会非常的麻烦而如果把用户信息存储到数据库中就会方便的多。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍文档检索从向量数据库中通过语义对数据进行检索然后把检索结果带入到大模型中供大模型使用。技术实现是通过数学计算根据向量计算相对位置位置越近语义相关度越高比如欧式距离cos值等。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍RAG的难点和重点是数据的质量和检索质量也就是说本地知识库的好坏和使用的模型(用来回答问题的模型不是词嵌入的模型)没有什么关系只是和你检索的效果有关。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍简单来说就是你的知识库数据质量和向量数据库的质量越好RAG的效果才越好。‍‍‍‍‍‍如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包✅ 从零到一的 AI 学习路径图✅ 大模型调优实战手册附医疗/金融等大厂真实案例✅ 百度/阿里专家闭门录播课✅ 大模型当下最新行业报告✅ 真实大厂面试真题✅ 2026 最新岗位需求图谱所有资料 ⚡️ 朋友们如果有需要《AI大模型入门进阶学习资源包》下方扫码获取~① 全套AI大模型应用开发视频教程包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点② 大模型系统化学习路线作为学习AI大模型技术的新手方向至关重要。 正确的学习路线可以为你节省时间少走弯路方向不对努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划带你从零基础入门到精通③ 大模型学习书籍文档学习AI大模型离不开书籍文档我精选了一系列大模型技术的书籍和学习文档电子版它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。④ AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。⑤ 大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。⑥ 大模型大厂面试真题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我精心整理了一份大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。以上资料如何领取为什么大家都在学大模型最近科技巨头英特尔宣布裁员2万人传统岗位不断缩减但AI相关技术岗疯狂扩招有3-5年经验大厂薪资就能给到50K*20薪不出1年“有AI项目经验”将成为投递简历的门槛。风口之下与其像“温水煮青蛙”一样坐等被行业淘汰不如先人一步掌握AI大模型原理应用技术项目实操经验“顺风”翻盘这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。以上全套大模型资料如何领取