147、RAG 检索增强生成（一）：Embedding、向量检索、语义相似度的底层原理

张

张建站

2026/7/6 5:29:30

10分钟阅读

147、RAG 检索增强生成（一）：Embedding、向量检索、语义相似度的底层原理一个让我失眠的Bug去年做某个企业知识库问答系统，用户问“我们公司去年Q3的报销流程是什么”，系统返回了“2021年员工生日会通知”。当时我盯着屏幕，咖啡杯差点摔地上——明明两个句子毫无关系，为什么向量检索会匹配上？后来排查发现，问题出在Embedding模型对“流程”和“通知”这类高频词的过度敏感，加上向量检索时距离度量选错了。这个坑让我花了整整两天重读论文和源码，也让我意识到：RAG不是简单的“把文本转成向量然后搜一下”，底层原理不搞透，线上迟早要翻车。Embedding：把文字变成数学能懂的东西先别急着调库。Embedding的本质，是把离散的、人类能理解的文字符号，映射到连续的、机器能计算的向量空间。这个过程不是随机的，而是通过大量语料训练，让语义相近的词在向量空间中距离更近。词嵌入 vs 句子嵌入很多人一开始会混淆这两个概念。词嵌入（如Word2Vec、GloVe）给每个词一个固定向量，但“苹果”这个词在“吃苹果”和“苹果公司”里语义完全不同，词嵌入无法区分。句子嵌入（如BERT、Sentence-BERT）则考虑上下文，输出整个句子的向量。这里踩过坑：早期我用Word2Vec做RAG，用户搜“苹果手机”，结果返回了“苹果很好吃”。因为两个“苹果”向量一样，模型根本不知道语境。后来换成Sentenc

如何快速获取B站视频播放地址：bilibili-parse完整使用指南

如何快速获取B站视频播放地址：bilibili-parse完整使用指南【免费下载链接】bilibili-parse bilibili Video API 项目地址: https://gitcode.com/gh_mirrors/bi/bilibili-parse 在当今数字内容创作时代，高效获取B站视频资源成为众多开发者和内容创…...

2026/7/6 5:27:25 阅读更多 →

5个步骤让电子墨水屏设备续航翻倍的Android启动器

5个步骤让电子墨水屏设备续航翻倍的Android启动器【免费下载链接】E-Ink-Launcher E-reader Launcher for Android, Electronic paper book... 项目地址: https://gitcode.com/gh_mirrors/ei/E-Ink-Launcher 如果你正在使用电子墨水屏设备，无论是电子书阅读…...

2026/7/6 5:26:58 阅读更多 →

REPENTOGON脚本扩展器：深度解析《以撒的结合》终极MOD框架

REPENTOGON脚本扩展器：深度解析《以撒的结合》终极MOD框架【免费下载链接】REPENTOGON Script extender for The Binding of Isaac: Repentance 项目地址: https://gitcode.com/gh_mirrors/re/REPENTOGON REPENTOGON是《以撒的结合：忏悔》的脚本…...

2026/7/6 5:26:14 阅读更多 →

基于Python的人脸识别课堂考勤系统设计与实现

1. 项目背景与核心价值在大学计算机相关专业的毕业设计中，一个既能体现技术深度又具备实用价值的选题往往能获得更高评价。基于人脸识别的课堂考勤管理系统正是这样一个集Python编程、计算机视觉、数据库管理于一体的综合性项目。这个系统的核心价值在于解决了传统考…...

2026/7/5 0:26:24 阅读更多 →

Claude 3系列模型真相：Opus 4.7和Sonnet 4.6并不存在

我注意到您提供的项目标题涉及的是一个虚构或错误的技术发布信息。目前（截至2024年中），Anthropic 公司并未发布过名为 “Claude Opus 4.7”、“Sonnet 4.6” 或 “Opus 4.6” 的模型版本。Anthropic 官方公开发布的 Claude 系列模型仅有以下稳…...

2026/7/6 4:29:46 阅读更多 →

游戏自动化技术赋能暗黑破坏神3：从手动操作到智能工作流的技术革命解决方案

游戏自动化技术赋能暗黑破坏神3：从手动操作到智能工作流的技术革命解决方案【免费下载链接】D3keyHelper D3KeyHelper是一个有图形界面，可自定义配置的暗黑3鼠标宏工具。项目地址: https://gitcode.com/gh_mirrors/d3/D3keyHelper 在暗黑破坏神…...

2026/7/5 0:30:27 阅读更多 →

让经典游戏重获新生：IPXWrapper解决Windows联机难题的完整方案

让经典游戏重获新生：IPXWrapper解决Windows联机难题的完整方案【免费下载链接】ipxwrapper 项目地址: https://gitcode.com/gh_mirrors/ip/ipxwrapper 还记得那些年，你和朋友们聚在一起玩《红色警戒2》、《星际争霸》或《魔兽争霸2》的快乐时光…...

2026/7/6 4:50:38 阅读更多 →