1. 重叠分块分块时相邻文本保留部分重复内容解决普通固定分块语义被截断、上下文丢失问题作用保证语义完整提升检索准确率2. 递归分块按层级由大到小拆分整篇→段落→句子→短句不生硬按字数切割贴合原文逻辑结构优势语义完整性强适配结构化文章3. 父子文档 RAG父文档篇幅大保存完整上下文子文档拆分小块用于向量检索流程检索匹配子文档 → 关联对应父文档 → 父文档完整内容喂给大模型优势兼顾检索精准度 上下文完整性优化回答效果原文前端转 AI 现在很热门很多人都在学 RAG。RAG 能解决大模型幻觉、信息滞后的问题还能接入私有文档做问答是转行必学的核心技术。1. 普通固定分块无重叠块 1前端转 AI 现在很热门很多人都在学 RAG。块 2RAG 能解决大模型幻觉、信息滞后的问题还能接入私有文档做问答是转行必学的核心技术。特点生硬截断刚好卡在句子中间断开容易丢语义。2. 重叠分块块 1前端转 AI 现在很热门很多人都在学 RAG。RAG 能解决大模型幻觉块 2大模型幻觉、信息滞后的问题还能接入私有文档做问答是转行必学的核心技术。特点两块中间重复一小段文字不会把完整意思切断保住上下文。3. 递归分块第一层按整段前端转 AI 现在很热门很多人都在学 RAG。RAG 能解决大模型幻觉、信息滞后的问题还能接入私有文档做问答是转行必学的核心技术。第二层拆句子①前端转 AI 现在很热门很多人都在学 RAG。②RAG 能解决大模型幻觉、信息滞后的问题。③还能接入私有文档做问答是转行必学的核心技术。特点从大到小逐层拆先整段、再拆句子不强行按字数切顺着原文逻辑分。补充 父子文档分块样式父文档完整大段前端转 AI 现在很热门很多人都在学 RAG。RAG 能解决大模型幻觉、信息滞后的问题还能接入私有文档做问答是转行必学的核心技术。子文档拆成多个小块子 1前端转 AI 现在很热门很多人都在学 RAG。子 2RAG 能解决大模型幻觉、信息滞后的问题。子 3接入私有文档做问答是转行必学核心技术。特点子块用来检索父块保留完整上下文。一句话分清递归分块 vs 父子文档分块1. 递归分块只干一件事把原文按逻辑一层层拆开整篇 → 段落 → 句子 → 短句只是单纯把文本合理切小从头到尾都是同一份内容没有大小块配对。2. 父子文档分块故意做两套块父文档保留完整一大段不拿去检索子文档拆成很多小碎块专门用来检索检索到小子块 → 拉出来对应的父大块给模型用。核心区别记这一句就行递归分块只有一套内容单纯逐层拆分切文本。父子分块做两套内容父大块 子小块子用来搜父用来给完整上下文。用同一段原文直观对比原文AI 转行必学 RAGRAG 能消幻觉、补信息滞后还能读私有文档。递归分块结果第一层AI 转行必学 RAGRAG 能消幻觉、补信息滞后还能读私有文档。第二层拆两句AI 转行必学 RAGRAG 能消幻觉、补信息滞后还能读私有文档 就只是逐级拆开只有一套内容。父子文档分块结果父文档完整大段AI 转行必学 RAGRAG 能消幻觉、补信息滞后还能读私有文档。子文档拆成小块AI 转行必学 RAGRAG 能消幻觉、补信息滞后还能读私有文档 有一大 多小两套分工不一样子检索父给完整内容。