港科大夏俊：肽串联质谱预测统一评估基准

张

张建站

2026/5/31 12:13:03

10分钟阅读

摘要串联质谱为复杂生物样本中蛋白质的高通量鉴定与定量提供了技术框架。在计算蛋白质组学中肽段串联质谱MS/MS谱预测是核心任务可支撑大规模肽段鉴定与定量等下游应用。尽管深度学习架构大幅提升了预测精度但类评估问题掩盖了该领域的真实进展❶ 不一致的数据预处理与不兼容的模型输出空间阻碍了模型的公平对比❷ 有缺陷的数据分割策略会引发隐匿的序列泄露虚高模型性能❸ 现有评估通常缺乏全面的跨物种基准测试也未系统评估模型对关键实验条件的鲁棒性。为解决上述问题本文提出肽段串联质谱谱预测统一基准PepSpecBench。该基准对多个互补公共数据集进行标准化数据预处理采用严格的骨干不相交分割策略消除序列泄露并在统一的碎片离子表征空间中评估各类架构同时构建全面的多物种评估套件与基于物理原理的元数据扰动探针用于评估模型鲁棒性与仪器感知能力。本研究揭示了6个代表性模型此前未被发现的性能差异与鲁棒性缺陷为未来模型设计、评估与实际部署提供了可落地的参考。https://huggingface.co/datasets/Chris-young-2004/PepSpecBenchjunxiahkust-gz.edu.cn研究方法任务与基准定义表1本文所用基准组件的描述性统计所有组件共享相同的肽段长度、电荷与翻译后修饰PTM范围域内数据分别在同一单元格中报告训练/验证/测试集占比。基线模型与空间对齐图1PepSpecBench框架总览该流程通过4个关键阶段系统性设计以确保公平且可诊断的评估(1) 标准化数据整合在统一预处理框架下对齐PROSPECT与MassIVE-KB数据集(2) 防泄露数据划分执行严格的骨干不相交分割策略(3) 规范化输出投影将离散离子阶梯、连续全谱等各类模型预测结果对齐至统一表征空间(4) 全面鲁棒性评估测试跨物种分布外泛化能力与物理敏感性。实验结果统一的物种内基准测试表2统一规范空间下的物种内基准测试结果骨干不相交分割中位数每个数据源的最优结果加粗显示数据泄露的影响表3PROSPECT数据集上Prosit模型的分割消融指标中位数差值为相对于骨干不相交分割的结果跨物种泛化能力表4跨物种泛化结果主要分布外结果物种列数值为光谱角SA/光谱角相似度SAS中位数每个物种的最优分布外结果加粗显示大肠杆菌结果为2个数据源的聚合值。肽段属性分析图2多属性分析前4个模型统一规范空间行依次为PROSPECT数据集的光谱角SA、MassIVE-KB数据集的光谱角SA、PROSPECT数据集的皮尔逊相关系数PCC、MassIVE-KB数据集的皮尔逊相关系数PCC列依次为肽段长度、前体电荷、相对光谱角/皮尔逊相关系数随长度的衰减基线为[6,10)区间阴影区域为bootstrap置信区间。物理参数敏感性图3物理参数敏感性3组并行实验(a) PROSPECT数据集上的归一化碰撞能量NCE校准分析中位数光谱角随overriding NCE的变化虚线为真实NCE30。(b) MassIVE-KB数据集上的盲法NCE扰动NCE从25变为30时的光谱角变化值。(c) PROSPECT迷你数据集上的电荷态扰动前体电荷从2强制改为3时光谱角相似度大于0.90的谱图占比。详细总结思维导图3大不可忽视的评估缺陷数据集构建异构输出空间对齐为6类代表性模型设计专属投影函数将其原生输出统一映射至234维规范空间数据泄露随机分割严重虚高性能以Prosit在PROSPECT上的实验为例参考PepSpecBench: A Unified Evaluation Benchmark for Peptide Tandem Mass Spectrometry Predictionhttps://doi.org/10.48550/arXiv.2605.01945260503PepSpecBench.pdf注AI辅助创作如有不当欢迎指出。内容仅供参考不构成任何建议。

高中生创客：基于Fusion 360与3D打印的智能隐藏式插座设计全解析

1. 项目概述：一个高中生的桌面电源革命作为一名长期与各种电子设备打交道的创客，我深知桌面布线混乱带来的困扰。电源适配器体积庞大、线缆缠绕、插座孔位被遮挡，这些问题不仅影响美观，更存在安全隐患。市面上的解决方案&#xff…...

2026/5/31 12:13:00 阅读更多 →

解锁Gemini故事力：5个被90%创作者忽略的提示词工程技巧

更多请点击： https://codechina.net 第一章：Gemini故事力的本质与认知跃迁 Gemini故事力并非单纯的语言生成能力，而是模型在多模态理解、因果推理与人类叙事心智之间建立映射关系的认知跃迁过程。它将结构化知识、时序逻辑与情感张力统合为可…...

2026/5/31 12:12:58 阅读更多 →

韩国NIA认证测试曝光：Gemini在韩语法律文书生成中F1仅0.68，而KoGPT-3.5达0.89——附5条Prompt工程急救清单

更多请点击： https://kaifayun.com 第一章：韩国NIA认证测试曝光：Gemini在韩语法律文书生成中F1仅0.68，而KoGPT-3.5达0.89——附5条Prompt工程急救清单韩国国家情报院（NIA）于2024年Q2发布的《AI模型本土化…...

2026/5/31 12:11:55 阅读更多 →

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

AnolisOS 8.8安装源配置实战指南：从诊断到解决方案的全流程解析当你在安装AnolisOS 8.8时遇到"设置基础软件仓库时出错"的提示，这通常意味着系统无法访问或识别安装源。这个问题看似简单，但背后可能涉及网络配置、镜像选择、启动参…...

2026/5/31 0:02:01 阅读更多 →

Lindy路线图前瞻：3个已被验证的信号，预示Q3将启动下一代AI原生平台重构

更多请点击： https://intelliparadigm.com 第一章：Lindy路线图前瞻：3个已被验证的信号，预示Q3将启动下一代AI原生平台重构信号一：核心基础设施层API调用量连续8周突破临界阈值 Lindy平台的 /v2/execute与 /v3/plan端…...

2026/5/31 0:05:14 阅读更多 →

【AI工具智能排行榜TOP10】：2024年实测数据驱动的生产力跃迁指南（仅限本周开放下载）

更多请点击： https://kaifayun.com 第一章：AI工具智能排行榜TOP10的底层逻辑与评估范式 AI工具排行榜并非主观评分的产物，而是由多维可量化指标驱动的系统性工程。其核心在于构建一个兼顾能力广度、推理深度、工程鲁棒性与生态协同性的评估范…...

2026/5/31 0:08:54 阅读更多 →

3步解决博德之门3模组管理难题：BG3ModManager完整使用指南

3步解决博德之门3模组管理难题：BG3ModManager完整使用指南【免费下载链接】BG3ModManager A mod manager for Baldurs Gate 3. This is the only official source! 项目地址: https://gitcode.com/gh_mirrors/bg/BG3ModManager BG3ModManager是专为《博德之…...

2026/5/31 0:17:22 阅读更多 →