科学 Agent 可验证输出实战:Sciverse 证据五件套落地指南
Sciverse 官网https://sciverse.space Sciverse Docshttps://sciverse.space/docs关键词科学 Agent、证据链、可验证回答、Sciverse、RAG很多团队把科学 Agent 做成了“会说话的检索器” 能返回一些文献标题但一旦追问“这句话证据在哪”就很难稳定给出可复核依据。这篇文章给一个工程可落地的方案把科学检索固定为 5 个步骤先做证据再做生成。一、为什么传统 Top-K 在科学场景不够传统流程向量检索 Top-K - 拼接上下文 - LLM 总结。问题在于Top-K 返回的是“相关文档块”不是“可支持结论的证据块”。缺少明确命中位点offset时引用难追溯。模型倾向把“可能正确”组织成“看起来确定”的结论。科学场景对“可验证性”的要求远高于通用问答所以检索链路必须可审计。二、证据五件套推荐调用顺序建议固定为list_catalog先看数据源能力和字段search_papers按年份/学科/作者等做结构化收敛semantic_search对问题本身做语义命中read_content围绕命中点扩展原文上下文get_resource补图表/资源证据需要时核心原则结构化先缩范围语义后定位原文再补证据。生成阶段只消费证据层不直接消费“粗召回结果”。三、工程实现模板推荐把系统拆成三层检索层search_papers semantic_search证据层read_content get_resource生成层LLM 只基于证据输出建议在服务侧加入两个硬约束没证据片段的结论不进入最终回答。每个关键结论附“文献标识 证据摘要”。四、上线前质量门禁至少要做以下检查同问多次引用来源是否稳定追问“依据是什么”时是否能返回原文片段证据冲突时是否显式提示不确定证据不足时是否能优雅拒答建议做一个“反向审计脚本”随机抽 20 条回答人工验证每条结论是否能回溯到证据。五、常见坑与规避坑 1直接把检索结果交给模型自由发挥规避先过证据层后给模型。坑 2把“模型归纳”当“文献事实”输出规避输出结构分为“证据事实”和“模型推断”。坑 3只追求召回率不看证据粒度规避增加命中位点扩展提升证据完整性。结语科学 Agent 的上限不在于模型会写多漂亮而在于证据链有多扎实。把“检索”升级成“证据生产流程”你的系统才会从 Demo 走向可上线。