摘要人工智能模型正被越来越多地用于预测扰动对基因表达的影响但现有基准测试无法可靠衡量模型性能。本文提出亟需可直接衡量模型预测对特定科学发现价值的新型基准测试以弥补这一缺陷。本文提出面向人工智能驱动的命中发现评估框架PerturbHD并验证了该评估方案的优势。jurecs.stanford.edu#人工智能虚拟细胞模型 #扰动效应预测 #科学发现 #基准测试 #PerturbHD #表型命中发现正文研究背景与现有基准的核心缺陷图1面向科学发现的人工智能虚拟细胞模型可解释性评估(a) 常用抽象指标无法可解释地衡量模型性能(b) 本文提出可直接衡量模型在特定科学发现任务中效用的新型指标以弥补该缺陷(c) PerturbHD评估框架概述(d-e) 实验的命中定义、所用模型及排序策略(f-g) 4个基准数据集中PerturbHD在实验优先级排序与实验模拟任务上的评估结果误差线代表95%置信区间。PerturbHD框架的设计与验证图2PerturbHD为抽象指标的合理选择提供依据以作为命中发现性能的代理指标(a) 模型在PerturbHD实验优先级排序任务中的排名与常用抽象指标的平均斯皮尔曼相关性误差线代表95%置信区间(b) PerturbHD优先级排序得分5%实验预算下的召回率与抽象指标的对比散点图每个点代表1组模型-数据集组合结果取不同随机种子的平均值。代码https://github.com/snap-stanford/perturb-hd详细总结思维导图测试模型参考Are Current AI Virtual Cell Models Useful for Scientific Discovery?doi: https://doi.org/10.64898/2026.04.23.719015260425PerturbHD.pdf注AI辅助创作如有错误欢迎指出。内容仅供参考不构成任何建议。