1. 蛋白质-配体结合预测的技术演进与挑战在药物研发领域准确预测小分子药物配体与靶标蛋白质的结合模式与强度是虚拟筛选和理性药物设计的核心环节。传统分子对接方法依赖力场计算和构象搜索虽然物理意义明确但面临采样效率低、评分函数准确性不足等瓶颈。近年来深度学习技术为这一领域带来了范式变革但也暴露出新的技术痛点。当前主流方案普遍采用全原子扩散模型如Boltz系列生成三维结构通过逐步去噪过程预测蛋白质-配体复合物。这种方法虽然精度较高但存在两个致命缺陷计算成本高昂生成单个复合物结构需要数十秒难以扩展到千万级化合物库的筛选信息冗余药物设计真正需要的是结合位点的几何特征和亲和力估计全原子细节反而可能引入噪声我们在Terray Therapeutics的研发实践中发现实际药物发现流程中90%的决策只需要以下关键信息配体结合姿态的全局准确性RMSD 2Å结合界面的局部几何匹配LDDT-PLI 0.8结合自由能的可靠估计ΔG误差 1 kcal/mol预测结果的校准置信度这促使我们重新思考是否必须通过昂贵的全原子扩散才能获得这些信息基于此我们开发了TerraBind——一个基于粗粒度优化的高效预测框架。2. TerraBind的核心设计理念2.1 架构创新从全原子生成到几何特征提取TerraBind采用编码-优化-解码的三阶段架构图1与传统扩散模型形成鲜明对比[传统流程] 蛋白质/配体序列 → 扩散模型 → 全原子结构 → 特征提取 → 亲和力预测 (耗时27.8秒) [TerraBind流程] 蛋白质/配体序列 → 距离分布预测 → 粗粒度优化 → 几何特征 → 亲和力预测 (耗时1.045秒)关键技术突破在于冻结的预训练编码器使用ESM-2处理蛋白质序列COATI-3处理配体结构避免端到端训练的开销精简的Pairformer主干48层网络仅保留pair表示参数量从1.47亿压缩到2700万距离分布对数(distogram)直接预测配体原子与蛋白质残基间的空间统计关系2.2 多阶段训练协议我们设计了渐进式训练策略表1逐步强化结合界面的几何表征阶段训练数据配比损失权重 (LL:LP:PP)目标1PDB:AFDB:BindingDB45:25:301:1:1基础几何一致性学习2PDB:BindingDB50:502:5:1强化结合界面表征3纯实验结构(PDB)1:1:1精细微调真实结合模式这种设计使得模型阶段1建立基本的空间关系理解阶段2重点学习配体-蛋白质相互作用LP权重5倍阶段3消除AlphaFold DB的预测偏差专注实验结构3. 结构预测性能实证分析3.1 基准测试结果我们在四个权威基准上评估配体姿态预测性能图2FoldBench556个低同源性复合物配体RMSD 2Å成功率55.3% (TerraBind) vs 55.1% (Boltz-1)严格指标(RMSD2Å且LDDT-PLI0.8)45.1% vs 39.3%PoseBusters307个2021年后发布的药物样复合物RMSD 2Å68.8% vs 69.7%严格指标55.1% vs 58.6%关键发现在保持相当精度的同时推理速度提升26.6倍A6000 GPU结合界面局部精度(LDDT-PLI)显著优于基线说明对关键相互作用区域的建模更准确仅使用口袋区域上下文(TerraBind Pocket)性能下降3%验证了结合信息的局部性3.2 距离分布熵的置信度指示作用配体-蛋白质熵(HLP)是TerraBind的重要创新指标其计算过程对每个配体原子-蛋白质残基对计算距离分布熵def calculate_HLP(p_bins): # p_bins: 64维概率分布 entropy -np.sum(p_bins * np.log(p_bins 1e-10)) return entropy / np.log(64) # 归一化到[0,1]全局HLP取所有配体-口袋残基对的平均值数据分析显示图3TerraBind的平均HLP0.491比Boltz-1 Trunk低15%HLP与预测准确性强相关当HLP0.25时RMSD2Å的成功率达82%当HLP0.75时成功率骤降至11%该指标无需额外训练直接来自距离分布的内在特性4. 结合亲和力预测创新4.1 免结构输入的亲和力预测传统方法需要先生成全原子结构再提取特征进行亲和力预测。TerraBind的革命性在于完全跳过结构生成直接从距离分布对数预测结合强度特征构造从pairformer提取的64维距离分布COATI-3编码的配体全局特征ESM-2编码的蛋白质结合口袋序列特征亲和力模块架构class AffinityModule(nn.Module): def __init__(self): super().__init__() self.distogram_encoder MLP(64, 128) # 距离分布编码 self.coati_proj Linear(256, 128) # 配体特征投影 self.epinet Epinet(256) # 不确定性估计 def forward(self, z_dist, z_lig): h_dist self.distogram_encoder(z_dist.mean(dim1)) h_lig self.coati_proj(z_lig) return self.epinet(torch.cat([h_dist, h_lig], dim-1))4.2 性能验证在CASP16和18个内部靶点的测试中图4数据集TerraBind Pearson基线(Boltz-2)提升幅度CASP16 L1000 (n17)0.440.12267%CASP16 L3000 (n123)0.630.3580%专有数据 (n27,078)0.610.4053%特别值得注意的是仅用公开数据训练在专有数据上表现优异证明强泛化能力HLP指标与亲和力的零样本相关性达0.51验证距离分布包含丰富结合信息4.3 结构微调的增效作用通过将pairformer在少量3-6个专有晶体结构上微调可使特定靶点的亲和力预测显著提升图5靶点X6个晶体Pearson从0.57→0.77靶点Y3个晶体0.66→0.67这为药物研发中的冷启动问题提供了解决方案——当针对新靶点仅有少量结构数据时通过轻量微调即可获得可靠预测。5. 药物发现工作流整合5.1 虚拟筛选加速TerraBind的端到端流程使大规模虚拟筛选变得可行预处理蛋白质ESM-2嵌入计算单次化合物库COATI-3批量编码并行评估# 单GPU可并行评估100个化合物/秒 python terra_batch.py --protein 1abc.pkl --ligands lib_1M.sdf --output scores.csv结果分析按预测亲和力排序用HLP过滤低置信度预测可视化top化合物的结合模式5.2 DMTA循环优化在模拟的设计-合成-测试-分析循环中图6TerraBind的持续学习策略展现出优势EMAX获取函数def EMAX(predictions, beta0.1): mu predictions.mean # 预测均值 sigma predictions.cov_matrix # 协方差矩阵 return mu - beta * np.diag(sigma) # 平衡探索与利用性能表现经过8轮循环每轮5个化合物传统贪婪策略找到的最佳化合物IC501.2μMEMAX策略找到的化合物IC500.2μM提升6倍6. 技术边界与未来方向6.1 当前局限分辨率限制粗粒度表示无法提供氢键网络等原子细节不适合需要精确静电计算的场景化学空间覆盖对罕见药效团的预测熵较高可通过合成数据增强改善体系限制大分子如抗体结合预测仍需改进多蛋白复合物的协同效应处理不足6.2 演进路线混合建模粗粒度筛选 → 全原子精修实现先广度后深度的工作流实验数据整合开发冷冻电镜密度图适配器引入生物物理实验数据作为监督动态过程预测结合分子动力学模拟预测解离速率等动力学参数在Terray的EMMI平台上我们正将TerraBind扩展到数十亿规模的专有数据集训练进一步突破现有技术边界。这种粗粒度优先的范式正在重塑计算药物发现的技术栈。