支持中心
Tech Support
1. fastq数据不可直接合并,墨卓数据与10x数据的reads结构并不一致,barcode白名单也不相同;
2. 细胞-基因表达矩阵(filtered-cell-gene-matrix)可进行合并,推荐使用Seurat、liger、Harmony、Scanorama等软件进行去批次处理。可以被分为两种情况:
1. 使用--intron excluede参数时,一条read只有比对到一个基因的外显子区域(read有超过50%的长度比对到了外显子区域),才会进入计数,如果比对到内含子区域或基因间区,则不进入计数;
2. 使用--intron included参数(此为默认参数)时,一条read只有比对到一个基因的外显子或内含子区域(read有超过50%的长度比对到内含子和/或外显子区域),才会进入计数,如果比对到基因间区,则不进入计数。针对不同的服务器配置及参数设置,100G数据运行时长并不完全相同。以Hygon C86 7285H 32-core Processor (2.5GHz)处理器为例:
1. 针对10G测序量的样本,增加线程数并不能显著降低分析时间,但会大大增加内存的使用量,因此10GB左右的文库推荐2-8线程;
2. 针对100G测序量的样本,当线程在24以下时,并不会显著增加内存的使用量,但可以显著减少分析时间;当线程设置在24以上时,内存使用量开始明显增加,因此100GB左右的文库推荐16-24线程;
3. 运行的时间和内存消耗与文库本身大小及设置的线程数有关,当文库大小达300GB时,我们建议分析时的内存不少于64GB。
1. 过去试剂版本的墨卓单细胞3'转录组试剂盒制备的文库,都可以使用MobiVision-v3.2进行分析。
2. MobiVision-v3.2与过去版本的MobiVision的分析结果并不完全一致。MobiVision v3.2版本在v3.0版本的基础上,优化了接头过滤策略,从而提升比对率,分析结果会更好。1. 新增命令integrate,扩展了命令集。
2. 加入了新的cutadapt序列剪切步骤,并改进了过滤方法以确保更干净的polyA切除。
3. 结果文件中的bam文件内容调整,增加unmapped reads信息和新的tag,改进了mapping info及seq saturation计算。
4. 更新了h5ad文件,改为包含完整矩阵信息。
5. 增加了cell_metrics文件及total genes detected信息,并写出于summary.csv文件中。
6. 改进了HTML报告的物种信息读取及mapping information参数调整,使其更接近cellranger的设置。
7. 比对率更高,分析结果更好。测序饱和度反映了全部测序片段整体的复杂性和测序深度,可通过计算含有有效条形码和UMI、且能对比至基因组唯一区域的测序片段的冗余度来获得。Sequencing Saturation = 1 - non-duplicated_unique_mapped_reads / total_unique_mapped_reads。对于通过mobivision quantify获得的bam文件而言, MAPQ=255代表能比对至基因组唯一比区域的测序片段。所以,total_unique_mapped_reads可通过计算MAPQ=255的测序片段中,UMI和Barcode通过纠正的测序片段数获得; non-duplicated_unique_mapped_reads可通过计算MAPQ=255的测序片段中,UMI和Barcode不重复的测序片段数获得; 代码如下:
samtools view -q 255 Aligned.bam | gawk '{if (NF==16) {total_reads+=1; !umi[$19,$20]++}} END {printf("%%s,%%s\\n", total_reads, length(umi))}'mobivision mkindex命令可用于构建reference参考基因组,且指定不同的-m参数,使用不同来源的参考基因组,均会导致构建的reference参考基因组大小并不一致,-m指定值越大,构建的参考基因组也越大,且分析速度也会更快。-m默认值为16,若使用默认参数构建人的reference,其参考基因组文件夹大小约为19G,构建reference代码如下:
mobivision mkindex -n GRCh38\mobivision quantify目前提供两种细胞过滤的算法,分别是CR2.2和EmptyDrops (Lun等人于2019年发表在Genome biology中的算法)。如果用户需要指定细胞数目,也可通过--cellnumber INT 来选择含有UMI数目排列前INT个的细胞标签作为有效细胞。
CR2.2算法(见上图左Panel):首先将barcode按UMI数从大到小排序,设N为期望细胞数,该值默认为3000, m 为期望细胞数的99分位barcode所对应的 UMI 数。所有 UMI 值超过 m/10 的barcode都被称识别为细胞。(例如,当N=3000时,99分位的barcode为第30个barcode,其UMI值记为m,当m=20000时,m/10=2000,那么所有UMI值超过2000的barcode会被识别为细胞,图示细胞数为9000)。
EmptyDrops算法(见上图右Panel): 参考Lun等人于2019年发表在Genome biology中的算法(EmptyDrops: distinguishing cells from empty droplets in droplet-based single-cell RNA sequencing data)。该算法是在 CR 2.2 的基础上进一步识别低RNA含量的细胞,步骤如下:
1. 初步细胞鉴定:与 CR 2.2 一致,使用基于每个barcode的总UMI数量的阈值来确定高RNA含量的细胞。
- 根据墨卓单细胞3'/5RNA的细胞捕获率,预估细胞数量N
- 根据每个barcode的UMI数量降序排列,计算前N个barcode的UI数量的99分位数,记为m。
- 如果barcode的UMI总数超过m的10%,则该barcode被视为含有细胞。
2. 细胞鉴定的细化:
- 选择具有低UMI计数的barcode,即第一步未被鉴定为细胞的barcodes。
- 针对这些barcodes的RNA图谱,基于采用基于基因的多项式分布,创建背景模型,并通过Simple Good-Turing平滑技术为未观察到的基因提供非零的模型估计。
- 将每个未在第一步鉴定中被识别为细胞的barcode的RNA图谱与背景模型进行比较,那些与背景模型明显不符的barcode被识别为细胞。
V(D)J分析的主要目的是从原始测序数据中提取B细胞或T细胞的V(D)J基因序列与克隆型。这个过程通常可以适应不同的测序平台和数据格式。因此,V(D)J分析流程支持多个测序平台的FASTQ文件。
例如,在数据分析层面,V(D)J分析软件IgBlast可以处理来自多个测序平台的FASTQ文件,包括Illumina、华大和Ion Torrent。当然,MobiVision分析软件也可以处理来自不同测序平台的FASTQ文件。然而,由于每种测序平台的读长和质量特征都不同,因此在进行V(D)J分析时可能需要考虑这些因素的影响。V(D)J分析流程通常可以支持单端的reads,包括只有一端reads包含有V(D)J基因信息的情况。不过,这取决于所使用的V(D)J分析软件和具体的实验设计。
对于单端的reads,V(D)J分析软件通常会对reads进行一些额外的预处理和过滤,以提高V(D)J重排和克隆型识别的准确性。MobiVision可以处理单端或双端的FASTQ文件,指定V(D)J基因在reads的哪个位置上,并且可以识别测序的reads来自哪些Barcodes,并确定V(D)J基因的重链与轻链,从而进行有效的V(D)J分析。
需要注意的是,对于只包含V(D)J基因信息的单端reads,由于缺少一些其他的序列信息如UMI,可能会影响单细胞V(D)J分析的准确性和可靠性。因此,在进行实验设计时,应该尽量选择适当的测序方案,以保证能够获取充分的序列信息来支持VDJ分析。对于特别不常见的物种,构建一个参考基因组序列文件可能是一个具有挑战性的任务,因为缺乏可用的参考基因组或基因组注释数据。以下是一些可能有用的方法:
在进行原始FASTQ文件的分析之前,通常需要对文件进行命名。虽然不同的实验室和分析流程可能有不同的命名规则,但通常应该满足以下一些基本要求:
单细胞VDJ测序数据量的合适大小取决于多种因素,包括样本复杂度、测序深度、实验设计等。
一般来说,单细胞V(D)J测序的目的是获得尽可能完整的克隆型信息,因此需要足够的测序深度来支持高质量的重排和克隆型识别。根据经验,每个单细胞至少需要测序到4000条reads,以保证高质量的VDJ分析结果。
需要注意的是,对于不同的实验设计和研究问题,需要根据实际情况来选择合适的测序数据量。对于一些研究问题,可能需要更深的测序深度,而对于一些其他问题,可能只需要较少的测序数据量。因此,在进行实验设计和数据分析时,应该综合考虑多种因素,并根据实际需要来选择合适的测序数据量。Fraction Reads in Cells是单细胞测序数据分析中的一个关键指标,用于评估测序数据的质量和单细胞捕获的效率。它表示在所有测序数据中,能够被分配到单个细胞的reads所占的比例。通常来说,Fraction Reads in Cells越高,代表单细胞测序的效果越好,样本中的单个细胞被捕获的概率越高。
当Fraction Reads in Cells比例比较低时,可能意味着以下一些情况:
值得注意的是,Fraction Reads in Cells的理想值是依赖于实验设计和测序技术等因素,并不存在一个固定的阈值。在进行单细胞测序数据分析时,需要结合其他指标和分析结果来综合评估数据质量和单细胞捕获效率。
Paired Clonotype Diversity是单细胞VDJ测序数据中用来评估克隆型多样性的一个指标。它基于同一细胞中的配对的重链和轻链VDJ重排信息,计算出同一细胞中的克隆型数量,并对不同细胞的克隆型进行聚类,得到每个聚类中包含的不同克隆型数量。Paired Clonotype Diversity指标即为不同聚类中克隆型数量的平均值,通常用来描述单个细胞内的克隆型多样性。
Paired Clonotype Diversity计算的具体过程如下:
MobiVisoion vdj的命名无需固定一种方式命名。从上述的命名规则中,我们可以看到其ReadType有四种命名形式,Suffix也有4种命名形式,目前MobiVision可以支持16种命名形式。用户在二代测序结束下机后获取的的fastq文件,只要命名合理,一定程度可以直接进行MobiVision vdj分析,无需对样本名改名。