在作物育种中解析基因型与表型之间的关系是实现精准分子育种的核心挑战。然而复杂性状往往由众多微效基因控制传统统计模型和现有深度学习方法在捕捉长程基因组依赖、处理超高维数据以及提供生物学解释方面仍存在明显短板。近日中国农科院团队在Nature Communications在线发表了一项突破性研究——GP-WAITERGenome-Phenotype prediction using Weighted self-Attention TransformER。该模型创新性地将GWAS衍生的SNP权重嵌入混合CNN-Transformer架构在大豆、玉米、水稻和小麦等六大数据集中全面超越七种主流基因组预测方法预测准确率最高提升77.5%MSE降低高达95.9%计算效率提升1.8-2.4倍。更重要的是GP-WAITER通过SHAP分析实现了模型的生物学可解释性成功定位到与油脂、异黄酮等重要营养品质相关的关键基因变异。GS亟待突破“黑箱”与“长程依赖”困境基因组选择GS已成为现代作物育种的核心驱动力。从传统的rrBLUP线性模型到机器学习SVR、XGBoost、LightGBM再到深度学习CNN、DNNGP、Cropformer各类方法不断涌现。然而现有模型普遍面临三大瓶颈长程依赖捕获不足卷积运算天然存在感受野限制难以建模基因组中远距离SNP之间的互作关系过度依赖显著SNP许多方法仅选用GWAS显著位点丢弃了大量微效多基因信息限制了对复杂性状遗传架构的全面捕捉可解释性差Transformer等强表达模型在作物基因组中的应用仍较少且大多缺乏生物学意义上的解释能力。针对上述挑战研究团队提出了GP-WAITER——一个融合GWAS权重信息与混合注意力机制的深度学习框架旨在实现高精度、高效率、高可解释的基因组预测。加权嵌入 CNN局部特征 Transformer全局注意力GP-WAITER的架构设计包含三大核心模块图11. 加权嵌入块Weighted Embedding Block输入全基因组SNP基因型二倍体编码1/-1/0和对应的GWAS权重-log10(p)变换后操作将SNP序列token化后与权重向量进行逐元素乘Hadamard积使每个位点的特征表达量与其表型贡献度成正比输出一个四维张量随后送入CNN层2. 混合编码器Hybrid CNN-TransformerCNN部分多层1D/2D卷积 BatchNorm tanh激活提取局部模体如单倍型块、上位性互作Transformer部分3层编码器每层包含27头自注意力、LayerNorm、残差连接和GELU前馈网络建模全基因组范围的长程依赖创新点将基因组数据重排为2D格式H×W显著降低序列长度带来的计算复杂度3. 预测块Predictor Block由全连接层、1D卷积层和tanh激活组成逐步降维并输出连续表型值损失函数MSE优化器Adamlr0.001训练轮次200早停策略4. 可解释性分析采用SHAPSHapley Additive exPlanations计算每个SNP对预测结果的边际贡献结合GWAS、单倍型分析和GO富集验证模型识别出的关键位点的生物学功能核心结果全面超越SOTA研究团队在六个公开数据集大豆×3、玉米、水稻、小麦上将GP-WAITER与rrBLUP、SVR、XGBoost、LightGBM、CNN、DNNGP、Cropformer等七种模型进行了系统比较。1. 预测精度最高提升77.5%大豆1861群体8个营养品质 × 5个环境GP-WAITER平均准确率Pearson r达0.64比最优基线模型提升8.9%77.5%绝对增幅4.81%19.54%大豆192 RIL群体在油脂、蛋白、异黄酮、叶酸四个性状上相比rrBLUP提升40.89%~103.09%玉米、水稻、小麦同样获得一致性的显著提升图2误差指标MSE降低63.9%95.9%RMSE降低25.5%57%MAE降低36.7%~62.5%2. 计算效率大尺度数据优势明显在大豆14460数据集约574万数据点上GP-WAITER训练耗时4216秒相比DNNGP7552秒加速1.8倍相比Cropformer10049秒加速2.4倍GPU峰值内存仅536 MB而Cropformer和DNNGP分别高达1134 MB和1668 MB这一效率得益于创新的2D张量重塑和BN残差设计使得单张RTX 3080即可轻松处理百万级SNP数据3. 可解释性发现从“黑箱”到“透明”SHAP top-20 SNP中29个基因富集到与性状直接相关的生物学通路如维生素E代谢、类黄酮合成、光响应等示例1Gm05.41854422MFT基因错义突变——在总异黄酮预测中排名第一同时也是油脂、油酸、生育酚的重要特征。单倍型分析证实MFT-AA与MFT-CC两组在四个性状上均存在极显著差异p 10⁻⁴⁹验证了该位点的多效性。示例2Gm08.8472159查尔酮合成酶基因上游变异——SHAP排名第五但传统GWAS未能检测到效应小或上位性互作体现了GP-WAITER在捕捉微弱信号方面的独特优势。4. 消融实验与影响因素分析加权信息的作用GP-WAITER加权准确率0.64 vs GP-AITER无权重0.59提升7.9%尤其在叶酸、总糖、类胡萝卜素上增幅达12.9%~15.1%遗传力的影响遗传力与预测准确率呈正相关R²0.58基因组区域贡献调控区基因区SNP贡献了90%的高SHAP值变异仅用全基因组SNP预测效果最佳仅用基因区SNP效果最差多环境加权扩展整合5个环境的GWAS权重后多环境预测准确率从0.64提升至0.75开启可解释精准育种GP-WAITER的核心创新可概括为加权嵌入机制将GWAS先验信息以连续权重形式融入模型保留全基因组所有变异避免信息丢失多头自注意力在不依赖循环或卷积结构的前提下高效建模超长基因组序列中的远程互作CNNTransformer混合同时捕获局部模体和全局依赖兼顾多样化的群体结构RIL、自然群体等端到端可解释SHAP分析使模型不仅预测准确还能直接输出驱动预测的关键位点及其效应方向。该模型将传统的“黑箱”预测转变为生物学可解释的智能推断为分子育种中的亲本选配、杂交组合设计、优良品种选育提供了强有力的计算工具。研究团队同时指出未来可在以下方向进一步突破实时自适应模型结合稀疏Transformer实现持续学习多组学融合整合转录组、表观组、代谢组等多维数据发现-验证闭环将计算预测与基因编辑/功能验证相结合加速候选基因的生物学确认。数据与代码https://github.com/snowo-w/GP-WAITER/ | https://zenodo.org/records/18779208让生信与AI服务于育种——关于米源生物【项目案例】7个主流基因组选择GS算法直接套用你的数据发表文章测序进入百元时代设计育种系列课程——开启“育种5.0”时代的钥匙