AI编码智能体正在暴露传统检索增强生成RAG管道中的一个关键缺陷。而解决方案可能是赋予智能体与人类相同的工具。智能体搜索需要动态的计划修订。如果智能体被分配去调试一个生产事故它并不知道所需信息的完整范围。它需要检查部分证据形成假设然后再次搜索来验证其假设。智能体需要找到精确的字符串、数值、版本约束、错误码和特定文件路径。这不是传统RAG设计的目标。RAG系统将文档分割成块并将其嵌入值存储在向量数据库中。当用户提出问题时系统根据嵌入向量与提示词之间的相似性来检索文本块。这种稠密检索方法非常适合在静态知识库上进行广泛的语义召回和回答一般性问题。但在软件工程和IT运维中它会失效。通过语义检索器单独执行精确的词汇约束和多步假设细化是极其困难的。当前的检索管道往往过早地决定了AI智能体能看到什么。一旦相关证据在智能体的推理循环开始之前被向量索引过滤掉数据就丢失了。再多的推理也无法恢复它。1、直接语料库交互直接语料库交互Direct Corpus InteractionDCI是一种全新但简单的范式它完全绕过了嵌入模型。它允许AI智能体使用通用的终端工具如grep、find、cat、sed和shell管道与原始数据进行交互。在企业环境中数据很少是一个稳定的、静态的文档集合。它由活跃的事故日志、实时IT工单、最近的代码提交、每日财务报告和不断变化的配置文件组成。向量嵌入始终是过去的快照。构建、更新和维护向量索引需要计算能力和批处理时间。DCI允许智能体直接与工作区的当前状态进行交互正如它此刻所存在的那样。借助终端工具智能体可以执行向量数据库无法实现的严格约束。寻找特定数据库故障的智能体可以搜索精确的错误字符串将输出通过管道传递到辅助过滤器以移除遗留日志文件并立即验证本地上下文。这在智能体和文件系统之间创建了一个迭代反馈循环。智能体执行命令读取原始输出并根据所学内容调整下一个查询。这就像人类开发者在不熟悉的代码库中导航一样。实验表明DCI在多跳推理任务和线索分散在不同文件中的检索基准上优于语义检索同时还降低了推理成本。2、用GrepSeek扩展DCI让语言模型直接访问原始终端会引入摩擦。智能体可能在复杂的嵌套目录结构中迷失。它们可能执行过于宽泛的搜索命令使终端被成千上万行无用的输出所淹没这会迅速使其推理过程脱轨。一个名为GrepSeek的新框架升级了DCI并解决了这些摩擦点它通过训练模型将语料库视为搜索环境。GrepSeek对查询进行推理并通过针对语料库执行可执行的shell命令来收集证据。为了简化GrepSeek的训练过程研究人员创建了一个管道可以从大量非结构化文本中生成训练数据无需人工协助。这个过程生成因果关系的搜索路径。它训练模型如何逻辑地导航文件系统、形成假设以及高效地使用命令行工具。GrepSeek还使用强化学习来改善智能体的任务导向搜索行为。它教会模型避免死胡同识别命令何时失败并相应地调整搜索查询。在数百万文档上顺序执行原始shell命令会引入严重的延迟。智能体等待在整个企业存储库上完成大规模grep搜索会使得编排循环慢如蜗牛。GrepSeek通过一个保持语义的分片并行执行引擎解决了这个瓶颈。该引擎将底层语料库拆分为较小的数据分片并同时在这些分片上运行shell命令。这种方法与传统的顺序执行相比将基于shell的检索速度提高了高达7.6倍同时保持了原始数据的保真度。3、如何在实践中应用DCI为什么不把整个代码库加载到一个庞大的百万token上下文窗口中因为对于智能体执行的每个步骤都处理数百万个token对大多数应用来说是不可持续的。大规模上下文会减慢智能体的首token时间。此外将原始代码塞满模型会增加其忽略深埋在提示词中特定关键细节的可能性。如果放任不管DCI的原始终端输出也会膨胀上下文窗口。一个构造不当的find命令可以返回数千行文本。而每次都在整个语料库上运行grep会很慢特别是通过网络访问时。对于AI编排工程师和数据架构师来说如果你有一个较小的信息语料库DCI风格的检索可以完美地工作。但对于非常大的语料库一种平衡的混合方法可能更合适语义检索处理广泛的、高召回率的候选发现。当用户意图不够明确时它定位一个初始的锚点文档。DCI作为在检索到的数据之上的精确验证层运行。智能体使用终端工具从锚点文档横向扩展到相邻文件或依赖项。智能体在生成最终答案之前检查精确约束、验证版本号并在多个文档之间组合弱信号。这种转变改变了我们对企业数据架构的思考方式。在不久的将来数据不仅需要为人类搜索引擎建立索引。它还需要显式地组织以便智能体能够检查、追踪和验证原始文件。编码智能体的检索质量不在于生成更好的向量嵌入或使用更大的上下文窗口。它依赖于智能体被允许与语料库交互的接口的分辨率。原文链接超越RAG直接语料库交互 - 汇智网