点击“AladdinEdu你的AI学习实践工作坊”注册即送-H卡级别算力沉浸式云原生集成开发环境80G大显存多卡并行按量弹性计费教育用户更享超低价。摘要单细胞表观遗传多组学技术能够在同一细胞中同时测量多种表观修饰如DNA甲基化、染色质可及性、组蛋白修饰等为解析细胞异质性的调控机制提供了前所未有的分辨率。本文系统阐述单细胞表观多组学的主流技术包括scNMT-seq同时测DNA甲基化、染色质可及性和转录组、scCUTTag测组蛋白修饰和转录组以及scChIP-seq、scATAC-seq等。从实验原理、数据特征、预处理流程出发深入解析多模态数据整合的方法学数据标准化、批次效应校正、跨模态关联分析、联合降维与聚类、调控网络推断等。重点探讨如何将DNA甲基化与染色质可及性数据关联识别增强子-启动子互作如何整合组蛋白修饰与转录组数据推断转录因子活性。通过胚胎发育、细胞分化、肿瘤微环境等典型案例展示单细胞表观多组学在揭示基因调控机制中的独特价值并展望空间表观组学、深度学习整合、临床转化等未来方向。关键词单细胞表观遗传学多组学整合scNMT-seqscCUTTagDNA甲基化染色质可及性1. 引言细胞的身份和功能由基因表达程序决定而基因表达受到表观遗传修饰DNA甲基化、组蛋白修饰、染色质可及性等的精密调控。传统单细胞表观技术如scATAC-seq、scChIP-seq每次只能测量一种表观层无法揭示不同表观修饰在同一细胞中的协同作用。然而DNA甲基化与染色质可及性往往相互影响启动子去甲基化通常与开放染色质相关而H3K4me3标记活性启动子H3K27me3标记抑制区域。只有同时测量多种表观修饰才能全面理解基因调控的逻辑。单细胞表观遗传多组学技术应运而生其核心目标是在同一个细胞中同时捕获两种或多种表观修饰信息。代表性技术包括scNMT-seq同时测量DNA甲基化、染色质可及性和转录组。scCUTTag同时测量组蛋白修饰如H3K27me3、H3K4me3和转录组。scChIP-seq低通量单细胞染色质免疫沉淀测序。scATAC-seq 甲基化通过转座酶可及性和亚硫酸盐测序联合分析。这些技术产生多模态数据每个细胞拥有甲基化谱、开放染色质谱、基因表达谱等多个矩阵。如何整合这些模态挖掘细胞间异质性的表观调控机制是生物信息学的重要挑战。本文将从技术原理、数据处理、整合方法到应用案例系统介绍单细胞表观遗传多组学的分析框架。2. 主流技术原理与数据特点2.1 scNMT-seq单细胞核小体甲基化与转录组测序原理scNMT-seqClark et al., 2018结合了亚硫酸盐测序检测DNA甲基化、GpC甲基转移酶检测染色质可及性和Smart-seq2检测转录组。具体流程将单细胞裂解用GpC甲基转移酶处理该酶仅在开放染色质区域的GpC位点上添加甲基化标记mGpC。进行亚硫酸盐转化未甲基化的C转化为U而甲基化的C包括CpG甲基化和GpC甲基化保留为C。通过全基因组扩增和测序同时获得DNA甲基化CpG位点是否甲基化通过比对到参考基因组。染色质可及性GpC位点是否被甲基转移酶标记开放区域标记为甲基化。转录组通过polyA捕获的mRNA反转录测序。数据特点每个细胞产生三个矩阵CpG甲基化水平0-1、GpC可及性0-1、基因表达计数。覆盖度不均匀甲基化数据较稀疏通常覆盖5% CpG位点可及性数据更稀疏。转录组数据与单细胞RNA-seq类似。2.2 scCUTTag单细胞切割与标签原理CUTTagKaya-Okur et al., 2019使用抗体引导的Tn5转座酶在目标组蛋白修饰位点插入测序接头。scCUTTagBartosovic et al., 2021将其扩展至单细胞细胞核与特异性抗体如抗H3K27me3孵育。加入Protein A-Tn5融合蛋白结合抗体。激活Tn5在抗体结合位点附近切割DNA并插入接头。通过微流控或组合索引将细胞barcode添加到片段上。测序后每个细胞获得组蛋白修饰的富集谱类似scChIP-seq。同时测转录组部分scCUTTag方案如Paired-Tag在CUTTag后用oligo(dT)捕获mRNA构建转录组文库实现同一细胞中组蛋白修饰与转录组的联合测量。数据特点每个细胞的组蛋白修饰信号为peak-like富集区域可二值化或计数。转录组数据与scRNA-seq类似。数据稀疏但通过聚集可识别细胞类型特异的修饰模式。2.3 其他技术scCOOL-seq类似scNMT-seq同时测甲基化和染色质可及性但无转录组。scMT-seq测甲基化和转录组无染色质可及性。scChIP-seq低通量每个细胞需特异性抗体富集通量低已较少使用。3. 数据预处理与质量控制3.1 数据预处理流程3.1.1 scNMT-seq预处理比对使用Bismark亚硫酸盐模式比对到参考基因组区分C→T转换来自亚硫酸盐转化和未转换的C甲基化。甲基化提取统计每个CpG位点的甲基化读段数/总读段数计算甲基化水平。可及性提取统计GpC位点CHG和CHH上下文的甲基化水平作为开放染色质的代理。转录组使用STAR或Salmon定量基因表达。3.1.2 scCUTTag预处理比对使用Bowtie2将读段比对到参考基因组保留唯一比对。peak calling可使用MACS2在单细胞水平或伪批量水平识别富集区域对于稀疏数据通常先合并同类细胞。片段计数计算每个细胞在预设的peak区域如从批量数据中获得中的读段数生成细胞-峰矩阵。3.2 质量控制指标甲基化/可及性覆盖率总CpG/GpC位点数、亚硫酸盐转化率99%。转录组基因数、UMI计数、线粒体比例。组蛋白修饰片段长度分布应集中在300-500 bp、背景噪声。细胞过滤去除覆盖率过低或过高双胞体的细胞。4. 多模态数据整合方法4.1 数据标准化与批次校正由于不同模态的测量尺度不同甲基化为0-1表达为计数需分别标准化甲基化通常使用beta值不进一步标准化除批次校正外。可及性/组蛋白修饰进行TF-IDF变换或log归一化。转录组log(CPM1)或SCTransform。批次效应不同实验批次、测序深度差异需校正。可使用Harmony、Seurat CCA等方法将各模态分别校正后再进行整合。4.2 跨模态关联分析4.2.1 启动子甲基化与基因表达计算每个基因启动子区域TSS上下游2 kb的平均甲基化水平与基因表达进行Spearman相关。负相关高甲基化低表达提示甲基化抑制转录。4.2.2 染色质可及性与表达类似地计算启动子区域的平均可及性与表达正相关。也可分析增强子区域的可及性与远端基因表达的相关性需Hi-C或共表达网络。4.2.3 组蛋白修饰与表达H3K4me3活性启动子标记与表达正相关。H3K27me3抑制标记与表达负相关。H3K27ac增强子/启动子活性与表达正相关。4.3 联合降维与聚类整合多模态数据学习细胞的联合低维表示揭示细胞异质性。4.3.1 多视图因子分析MOFAMOFAArgelaguet et al., 2020是专为多组学整合设计的贝叶斯矩阵分解方法。它将各模态视为不同视图提取共享潜在因子。每个因子可解释多个模态的共同变异且因子负荷可关联到生物学通路。MOFA天然处理缺失值适合scNMT-seq等稀疏数据。应用在scNMT-seq数据中MOFA提取出与细胞周期、分化相关的因子分别关联甲基化、可及性和表达变化。4.3.2 加权最近邻WNNSeurat v4的WNN方法为每个细胞在每种模态的PCA空间计算最近邻图然后根据邻域一致性加权生成联合图用于UMAP和聚类。简单高效适用于所有模态。4.3.3 多模态变分自编码器如scMMscMMMultimodal Variational Autoencoder使用深度生成模型学习共享潜在空间同时重构各模态的观测数据。可生成模态间的插补值如从甲基化预测表达。4.4 调控网络推断整合多模态数据可构建“甲基化-可及性-表达”调控网络识别启动子/增强子区域的甲基化水平与可及性。关联可及性区域与远端基因基于共可及性或Hi-C。通过转录因子motif富集推断上游调控因子。工具SCENIC结合scATAC和scRNA可扩展到甲基化数据Pando。5. 应用案例5.1 案例一小鼠胚胎发育中的表观重编程背景胚胎发育从受精到原肠胚形成经历剧烈的表观重编程DNA甲基化几乎全基因组擦除再重建。数据scNMT-seq分析小鼠胚胎从卵子到E6.5的细胞Argelaguet et al., 2019。方法MOFA整合甲基化、可及性、表达三模态。识别出三个主要因子因子1对应着床前发育甲基化下降可及性上升因子2对应原始内胚层谱系因子3对应外胚层谱系。联合聚类发现早期滋养层、内细胞团、原始内胚层等细胞类型。关联分析启动子甲基化与基因表达负相关增强子可及性与发育关键基因如Sox2、Nanog表达正相关。价值首次在单细胞水平揭示了胚胎发育中表观三模态的协同变化。5.2 案例二造血干细胞分化中的组蛋白修饰动态背景造血干细胞HSC分化为髓系和淋巴系过程中组蛋白修饰调控谱系特异性基因。数据scCUTTag测H3K4me3和H3K27me3同时测转录组。方法WNN整合组蛋白修饰和转录组UMAP聚类识别HSC、前体细胞、成熟细胞。发现HSC中谱系特异性基因同时具有H3K4me3准备状态和H3K27me3抑制处于“二价”状态分化时二价标记解除转变为单一活性或抑制。鉴定出关键转录因子如PU.1、GATA1的启动子区域H3K4me3与表达正相关。价值验证了二价染色质在谱系决定中的作用。5.3 案例三胶质母细胞瘤的肿瘤内异质性背景胶质母细胞瘤GBM具有高度异质性不同细胞亚群可能具有不同表观状态。数据scNMT-seq分析GBM患者样本。方法联合降维识别出三个亚群神经祖细胞样、间充质样、星形胶质细胞样。每个亚群具有特异的DNA甲基化和可及性模式例如间充质样亚群中EMT相关基因启动子低甲基化且高表达。通过可及性区域的motif富集推测亚群特异的转录因子活性如间充质样亚群中ZEB1活性高。价值为GBM的靶向治疗提供了表观遗传标志物。6. 挑战与未来展望6.1 当前挑战数据稀疏性单细胞表观数据尤其甲基化覆盖度极低5% CpG限制了位点级分析。模态间对齐同一细胞的甲基化位点、可及性区域和表达基因不一一对应整合时需聚合到基因或区域。计算复杂性多模态高维数据对内存和计算要求高。批次效应不同模态可能来自不同实验批次校正困难。生物学噪声甲基化与表达的关系并非严格线性存在复杂调控。6.2 未来趋势空间表观多组学将表观多组学与空间转录组结合解析组织原位中的表观异质性。深度学习整合使用Transformer或图神经网络学习跨模态的深层特征表示提升稀疏数据下的性能。预训练模型在大规模单细胞表观数据上预训练通过微调适应下游任务。动态表观组学结合时间序列或药物扰动追踪表观状态随时间的变化。临床转化开发基于单细胞表观多组学的诊断panel用于肿瘤分型和治疗响应预测。7. 结语单细胞表观遗传多组学技术使我们能够在同一细胞中同时观察DNA甲基化、染色质可及性、组蛋白修饰和基因表达为解析基因调控的因果网络提供了强大工具。从scNMT-seq到scCUTTag这些技术不断成熟配套的生物信息学方法MOFA、WNN、SCENIC为数据整合提供了有效框架。通过胚胎发育、细胞分化和疾病研究等案例我们见证了单细胞表观多组学在揭示细胞命运决定和疾病机制中的独特价值。未来随着空间组学和深度学习的融合表观多组学将走向更高分辨率、更强预测力和更直接的临床转化。参考文献Clark, S. J., et al. (2018). scNMT-seq enables joint profiling of chromatin accessibility DNA methylation and transcription in single cells.Nature Communications, 9(1), 781.Argelaguet, R., et al. (2019). Multi-omics profiling of mouse gastrulation at single-cell resolution.Nature, 576(7787), 487-491.Bartosovic, M., et al. (2021). Single-cell CUTTag profiles histone modifications and transcription factors in complex tissues.Nature Biotechnology, 39(7), 825-835.Kaya-Okur, H. S., et al. (2019). CUTTag for efficient epigenomic profiling of small samples and single cells.Nature Communications, 10(1), 1930.Argelaguet, R., et al. (2020). MOFA: a statistical framework for comprehensive integration of multi-modal single-cell data.Genome Biology, 21(1), 111.Hao, Y., et al. (2021). Integrated analysis of multimodal single-cell data.Cell, 184(13), 3573-3587.点击“AladdinEdu你的AI学习实践工作坊”注册即送-H卡级别算力沉浸式云原生集成开发环境80G大显存多卡并行按量弹性计费教育用户更享超低价。