港科大夏俊:肽串联质谱预测统一评估基准
摘要串联质谱为复杂生物样本中蛋白质的高通量鉴定与定量提供了技术框架。在计算蛋白质组学中肽段串联质谱MS/MS谱预测是核心任务可支撑大规模肽段鉴定与定量等下游应用。尽管深度学习架构大幅提升了预测精度但类评估问题掩盖了该领域的真实进展❶ 不一致的数据预处理与不兼容的模型输出空间阻碍了模型的公平对比❷ 有缺陷的数据分割策略会引发隐匿的序列泄露虚高模型性能❸ 现有评估通常缺乏全面的跨物种基准测试也未系统评估模型对关键实验条件的鲁棒性。为解决上述问题本文提出肽段串联质谱谱预测统一基准PepSpecBench。该基准对多个互补公共数据集进行标准化数据预处理采用严格的骨干不相交分割策略消除序列泄露并在统一的碎片离子表征空间中评估各类架构同时构建全面的多物种评估套件与基于物理原理的元数据扰动探针用于评估模型鲁棒性与仪器感知能力。本研究揭示了6个代表性模型此前未被发现的性能差异与鲁棒性缺陷为未来模型设计、评估与实际部署提供了可落地的参考。https://huggingface.co/datasets/Chris-young-2004/PepSpecBenchjunxiahkust-gz.edu.cn研究方法任务与基准定义表1本文所用基准组件的描述性统计所有组件共享相同的肽段长度、电荷与翻译后修饰PTM范围域内数据分别在同一单元格中报告训练/验证/测试集占比。基线模型与空间对齐图1PepSpecBench框架总览该流程通过4个关键阶段系统性设计以确保公平且可诊断的评估(1) 标准化数据整合在统一预处理框架下对齐PROSPECT与MassIVE-KB数据集(2) 防泄露数据划分执行严格的骨干不相交分割策略(3) 规范化输出投影将离散离子阶梯、连续全谱等各类模型预测结果对齐至统一表征空间(4) 全面鲁棒性评估测试跨物种分布外泛化能力与物理敏感性。实验结果统一的物种内基准测试表2统一规范空间下的物种内基准测试结果骨干不相交分割中位数每个数据源的最优结果加粗显示数据泄露的影响表3PROSPECT数据集上Prosit模型的分割消融指标中位数差值为相对于骨干不相交分割的结果跨物种泛化能力表4跨物种泛化结果主要分布外结果物种列数值为光谱角SA/光谱角相似度SAS中位数每个物种的最优分布外结果加粗显示大肠杆菌结果为2个数据源的聚合值。肽段属性分析图2多属性分析前4个模型统一规范空间行依次为PROSPECT数据集的光谱角SA、MassIVE-KB数据集的光谱角SA、PROSPECT数据集的皮尔逊相关系数PCC、MassIVE-KB数据集的皮尔逊相关系数PCC列依次为肽段长度、前体电荷、相对光谱角/皮尔逊相关系数随长度的衰减基线为[6,10)区间阴影区域为bootstrap置信区间。物理参数敏感性图3物理参数敏感性3组并行实验(a) PROSPECT数据集上的归一化碰撞能量NCE校准分析中位数光谱角随overriding NCE的变化虚线为真实NCE30。(b) MassIVE-KB数据集上的盲法NCE扰动NCE从25变为30时的光谱角变化值。(c) PROSPECT迷你数据集上的电荷态扰动前体电荷从2强制改为3时光谱角相似度大于0.90的谱图占比。详细总结思维导图3大不可忽视的评估缺陷数据集构建异构输出空间对齐为6类代表性模型设计专属投影函数将其原生输出统一映射至234维规范空间数据泄露随机分割严重虚高性能以Prosit在PROSPECT上的实验为例参考PepSpecBench: A Unified Evaluation Benchmark for Peptide Tandem Mass Spectrometry Predictionhttps://doi.org/10.48550/arXiv.2605.01945260503PepSpecBench.pdf注AI辅助创作如有不当欢迎指出。内容仅供参考不构成任何建议。