Q: 单细胞转录组的细胞是如何鉴定的?

mobivision quantify目前提供两种细胞过滤的算法,分别是CR2.2和EmptyDrops (Lun等人于2019年发表在Genome biology中的算法)。如果用户需要指定细胞数目,也可通过--cellnumber INT 来选择含有UMI数目排列前INT个的细胞标签作为有效细胞。

 

image.png

 

CR2.2算法(见上图左Panel):首先将barcode按UMI数从大到小排序,设N为期望细胞数,该值默认为3000, m 为期望细胞数的99分位barcode所对应的 UMI 数。所有 UMI 值超过 m/10 的barcode都被称识别为细胞。(例如,当N=3000时,99分位的barcode为第30个barcode,其UMI值记为m,当m=20000时,m/10=2000,那么所有UMI值超过2000的barcode会被识别为细胞,图示细胞数为9000)。

EmptyDrops算法(见上图右Panel): 参考Lun等人于2019年发表在Genome biology中的算法(EmptyDrops: distinguishing cells from empty droplets in droplet-based single-cell RNA sequencing data)。该算法是在 CR 2.2 的基础上进一步识别低RNA含量的细胞,步骤如下:
1. 初步细胞鉴定:与 CR 2.2 一致,使用基于每个barcode的总UMI数量的阈值来确定高RNA含量的细胞。
- 根据墨卓单细胞3'/5RNA的细胞捕获率,预估细胞数量N
- 根据每个barcode的UMI数量降序排列,计算前N个barcode的UI数量的99分位数,记为m。
- 如果barcode的UMI总数超过m的10%,则该barcode被视为含有细胞。

2. 细胞鉴定的细化:
- 选择具有低UMI计数的barcode,即第一步未被鉴定为细胞的barcodes。
- 针对这些barcodes的RNA图谱,基于采用基于基因的多项式分布,创建背景模型,并通过Simple Good-Turing平滑技术为未观察到的基因提供非零的模型估计。
- 将每个未在第一步鉴定中被识别为细胞的barcode的RNA图谱与背景模型进行比较,那些与背景模型明显不符的barcode被识别为细胞。