虚拟细胞自主机械推理
摘要大语言模型LLM作为加速科学发现的有效方法近期受到广泛关注。但其在生物学等开放式科学领域的应用仍较为有限核心原因是缺乏基于事实、可落地执行的解释。为解决该问题本文提出面向虚拟细胞的结构化解释形式体系将生物推理表征为机械作用图实现系统性验证与证伪。基于此本文提出VCR-Agent多智能体框架融合生物知识检索与基于验证器的过滤机制自主生成并验证机械推理。依托该框架本文发布VC-Traces数据集包含源自Tahoe100M细胞图谱的经验证机械解释。实验证明基于该解释训练可提升事实精准度为下游基因表达预测提供更有效的监督信号。上述结果凸显了可靠机械推理对虚拟细胞的重要性该能力通过多智能体与严格验证的协同得以实现。https://github.com/yunhuijang/VC-TRACESemmanuelvalencelabs.com#虚拟细胞 #自主机械推理 #大语言模型 #多智能体 #结构化解释 #验证器过滤 #基因表达预测引言图1VCR-Agent多智能体框架总览报告生成器接收扰动与细胞上下文执行知识检索与整合生成全面、基于生物事实的报告解释构造器将该报告转化为正式的结构化机械解释生成的结构化解释随后由验证器评估完成事实验证与过滤。面向虚拟细胞的结构化机械推理图2结构化推理总览(a) 机械推理轨迹示例给定输入 ((p, c)(比美替尼C32细胞))模型生成机械推理轨迹蓝色与浅蓝色分别表示动作原语与参数dag标签内元素为定义推理图的边列表。(b) 有向无环图DAG示例相同颜色代表同一动作原语。动作空间图3动作空间总览粗体为子类别紫色为带验证器的动作原语。面向推理的大语言模型智能体框架报告生成器图4生成报告示例输入的扰动-细胞上下文对与图2a一致。基于验证器的过滤与质量控制基于验证器的过滤图5基于验证器的过滤流程示例流程将初始结构化解释顶部经验证器处理中部生成过滤后输出底部相同颜色连接动作原语与对应验证器。实验解释质量表1解释质量性能最优结果加粗标注标准差按细胞系计算。应用TahoeQA任务图6TahoeQA性能结果基线按模型类型分类——灰色为统计与基因基础模型蓝色为大语言模型基线棕色为本文带结构化解释的模型Average为5个细胞系测试集的平均F1分数Union为5个细胞系合并测试集的性能。详细总结思维导图解释质量核心对比参考Towards Autonomous Mechanistic Reasoning in Virtual Cellshttps://doi.org/10.48550/arXiv.2604.11661260414VCR-Agent.pdf注AI辅助创作如有错误欢迎指出。内容仅供参考不构成任何建议。