单细胞黑话词典-质控图表告诉了你什么?
单细胞转录组测序下机后科研工作者常困惑于如何判断样本数据合格与否以及异常指标该如何处理。本文主要聚焦单细胞质控核心梳理关键指标及其筛选标准为下游细胞聚类、差异表达分析等研究筑牢数据根基质控是单细胞分析的前置条件单细胞转录组下游分析假设每个被捕获的细胞都是完整且有代表性的生物学单元但原始数据常常存在混杂低质量细胞、双细胞、空液滴及测序噪音。若不加过滤将直接污染聚类结果与生物学结论因此质控是单细胞分析不可或缺的第一步。常见的关键质控指标1.nCount RNA单个细胞的UMI数nCount_RNA指单个细胞中检测到的所有UMI的总和代表该细胞的转录本数量是衡量单细胞数据质量的核心指标之一。nCount RNA过低提示细胞质量差损伤/死亡导致RNA降解或测序深度不足。nCount RNA过高一般是双细胞或污染导致的。2.nFeature RNA单个细胞检测到的基因数nFeature_RNA指的是每个细胞中被检测到的基因数量。它反映的是该细胞表达谱的复杂度常被当作细胞信息量的粗略代理指标。nFeature RNA过低可能来源于空滴或低质量细胞nFeature RNA过高可能来源于双细胞或多细胞。3.percent.mt线粒体基因比例mito.percent表示线粒体基因表达量在该细胞总表达量中的比例常用来识别潜在的低质量或状态异常的细胞。正常细胞中线粒体基因比例很低除了一些特殊的代谢旺盛的组织类型如肾脏组织、骨骼肌细胞和心肌细胞等。percent.mt比例偏高往往是由于细胞受损、应激、膜破裂或胞浆RNA泄露后导致。4.双细胞过滤单细胞测序时可能会把两或多个细胞被包入同一液滴导致混合信号对下游干扰分析产生误导因此双细胞的识别与过滤也是一个重要的质控步骤。Scrublet是一个基于Python的双细胞识别工具专门用于droplet-based scRNA-seq数据的质控通过计算doublet score并结合自动或手动阈值划分出疑似双细胞态。期望双细胞比例参数设置一般保持默认即可通常为0.05-0.1。高分文章看实战效果讲完三大核心质控指标的定义我们用这篇Cell级的研究质控前后小提琴图直观看懂过滤效果图 A质控前原始数据存在大量异常值是划定阈值的依据。图 B质控后严格过滤后的干净数据异常值完全清除。图 A图 B质控标准 nFeature RNA200 nFeature RNA 5000200细胞破碎、捕获失败、空液滴低质量需剔除5000通常是双细胞/多细胞干扰分群需剔除。图A中大量细胞基因数超出200-5000区间长尾异常值明显图B中所有细胞的基因数都集中在合格区间说明低质细胞、双细胞已被完全过滤必须剔除。nCount RNA不单独设限只用来交叉验证、辅助判断异常值与nFeature RNA趋势一致即为合格。图A中部分细胞UMI数极端偏高/偏低对应双细胞、破碎细胞图B中UMI分布与基因数完全匹配无异常点验证了过滤的有效性。percent.mtpercent.mt 15%15%细胞凋亡、坏死、膜破损细胞质RNA流失仅残留线粒体RNA需剔除。图A中大量细胞线粒体占比飙升至 50% 以上是典型的凋亡细胞图B中所有细胞的线粒体占比稳定在15%以下活细胞占比100%数据可靠性拉满。由于每个样本的都有异质性各个指标也没有非常统一的固定阈值因此需综合项目经验及样本的具体情况设置其质控和过滤的参数。其他高分文章质控示例总结单细胞测序在进行标准分析流程归一化、找高变基因、降维、聚类之前需要先对数据进行质控去除那些不具备分析价值、可能引入噪音的细胞为下游分析提供可靠的数据支撑。本文我们介绍了质控的基本内容并总结了最常用的细胞和基因的质控中的相关指标以及质控范围下一期我们将继续介绍单细胞转录组的其他分析内容一起来学习吧~参考文献[1] Williams D W, Greenwell-Wild T, Brenchley L, et al. Human oral mucosa cell atlas reveals a stromal-neutrophil axis regulating tissue immunity[J]. Cell, 2021, 184(15): 4090-4104.[2] Jisun So, Olivia Strobel, Jamie Wann, et al. (2025) Robust single-nucleus RNA sequencing reveals depot-specific cell population dynamics in adipose tissue remodeling during obesity eLife 13:RP97981[3] Ober-Reynolds, B., Wang, C., Ko, J.M. et al. Integrated single-cell chromatin and transcriptomic analyses of human scalp identify gene-regulatory programs and critical cell types for hair and skin diseases. Nat Genet 55, 1288–1300 (2023). https://doi.org/10.1038/s41588-023-01445-4[4] Luecken, M.D., Theis, F.J. Current best practices in single‐cell RNA‐seq analysis: a tutorial. Mol Syst Biol 15, MSB188746 (2019). https://doi.org/10.15252/msb.20188746