支持中心

常见问题

MobiVision软件无法直接判断文库中的双胞或多胞情况。 双物种样本的html质控报告也只能判断,一个液滴中是否同时含有两个物种来源的细胞。如果需要具体判断双胞或多胞的话,建议可根据UMI和基因数进行筛选,UMI或基因数过多的判断为多胞。若在细胞注释步骤出现类似双胞情况,建议可借助其他软件进行判断。

1. fastq数据不可直接合并,墨卓数据与10x数据的reads结构并不一致,barcode白名单也不相同;

2. 细胞-基因表达矩阵(filtered-cell-gene-matrix)可进行合并,推荐使用Seurat、liger、Harmony、Scanorama等软件进行去批次处理。

可以被分为两种情况:

1. 使用--intron excluede参数时,一条read只有比对到一个基因的外显子区域(read有超过50%的长度比对到了外显子区域),才会进入计数,如果比对到内含子区域或基因间区,则不进入计数;

2. 使用--intron included参数(此为默认参数)时,一条read只有比对到一个基因的外显子或内含子区域(read有超过50%的长度比对到内含子和/或外显子区域),才会进入计数,如果比对到基因间区,则不进入计数。
会进行合并分析,分析结果名称是testA。合并后的文件名是将所有fastq文件进行排序后,取前两个fastq文件的文件名作为合并后的文件名称。
不能。
Read1长度不小于40bp, read2长度推荐150bp。
会写一些中间文件。如果是其他用户使用该软件,为了避免权限问题,建议修改chmod -R 777 /path/mobivision-v3.2/mobivision/

针对不同的服务器配置及参数设置,100G数据运行时长并不完全相同。以Hygon C86 7285H 32-core Processor (2.5GHz)处理器为例:

1. 针对10G测序量的样本,增加线程数并不能显著降低分析时间,但会大大增加内存的使用量,因此10GB左右的文库推荐2-8线程;

2. 针对100G测序量的样本,当线程在24以下时,并不会显著增加内存的使用量,但可以显著减少分析时间;当线程设置在24以上时,内存使用量开始明显增加,因此100GB左右的文库推荐16-24线程;

3. 运行的时间和内存消耗与文库本身大小及设置的线程数有关,当文库大小达300GB时,我们建议分析时的内存不少于64GB。


image.png

1. 过去试剂版本的墨卓单细胞3'转录组试剂盒制备的文库,都可以使用MobiVision-v3.2进行分析。

2. MobiVision-v3.2与过去版本的MobiVision的分析结果并不完全一致。MobiVision v3.2版本在v3.0版本的基础上,优化了接头过滤策略,从而提升比对率,分析结果会更好。 

1. 新增命令integrate,扩展了命令集。

2. 加入了新的cutadapt序列剪切步骤,并改进了过滤方法以确保更干净的polyA切除。

3. 结果文件中的bam文件内容调整,增加unmapped reads信息和新的tag,改进了mapping info及seq saturation计算。

4. 更新了h5ad文件,改为包含完整矩阵信息。

5. 增加了cell_metrics文件及total genes detected信息,并写出于summary.csv文件中。

6. 改进了HTML报告的物种信息读取及mapping information参数调整,使其更接近cellranger的设置。

7. 比对率更高,分析结果更好。

测序饱和度反映了全部测序片段整体的复杂性和测序深度,可通过计算含有有效条形码和UMI、且能对比至基因组唯一区域的测序片段的冗余度来获得。Sequencing Saturation = 1 - non-duplicated_unique_mapped_reads / total_unique_mapped_reads。对于通过mobivision quantify获得的bam文件而言, MAPQ=255代表能比对至基因组唯一比区域的测序片段。所以,total_unique_mapped_reads可通过计算MAPQ=255的测序片段中,UMI和Barcode通过纠正的测序片段数获得; non-duplicated_unique_mapped_reads可通过计算MAPQ=255的测序片段中,UMI和Barcode不重复的测序片段数获得; 代码如下:

samtools view -q 255 Aligned.bam | gawk '{if (NF==16) {total_reads+=1; !umi[$19,$20]++}} END {printf("%%s,%%s\\n", total_reads, length(umi))}'

mobivision mkindex命令可用于构建reference参考基因组,且指定不同的-m参数,使用不同来源的参考基因组,均会导致构建的reference参考基因组大小并不一致,-m指定值越大,构建的参考基因组也越大,且分析速度也会更快。-m默认值为16,若使用默认参数构建人的reference,其参考基因组文件夹大小约为19G,构建reference代码如下:

mobivision mkindex -n GRCh38\
-f GRCh38.primary_assembly.genome.fa\
-g gencode.v38.primary_assembly.annotation.gtf\
-r human-gencode-v1.0

mobivision quantify目前提供两种细胞过滤的算法,分别是CR2.2和EmptyDrops (Lun等人于2019年发表在Genome biology中的算法)。如果用户需要指定细胞数目,也可通过--cellnumber INT 来选择含有UMI数目排列前INT个的细胞标签作为有效细胞。

 

image.png

 

CR2.2算法(见上图左Panel):首先将barcode按UMI数从大到小排序,设N为期望细胞数,该值默认为3000, m 为期望细胞数的99分位barcode所对应的 UMI 数。所有 UMI 值超过 m/10 的barcode都被称识别为细胞。(例如,当N=3000时,99分位的barcode为第30个barcode,其UMI值记为m,当m=20000时,m/10=2000,那么所有UMI值超过2000的barcode会被识别为细胞,图示细胞数为9000)。

EmptyDrops算法(见上图右Panel): 参考Lun等人于2019年发表在Genome biology中的算法(EmptyDrops: distinguishing cells from empty droplets in droplet-based single-cell RNA sequencing data)。该算法是在 CR 2.2 的基础上进一步识别低RNA含量的细胞,步骤如下:
1. 初步细胞鉴定:与 CR 2.2 一致,使用基于每个barcode的总UMI数量的阈值来确定高RNA含量的细胞。
- 根据墨卓单细胞3'/5RNA的细胞捕获率,预估细胞数量N
- 根据每个barcode的UMI数量降序排列,计算前N个barcode的UI数量的99分位数,记为m。
- 如果barcode的UMI总数超过m的10%,则该barcode被视为含有细胞。

2. 细胞鉴定的细化:
- 选择具有低UMI计数的barcode,即第一步未被鉴定为细胞的barcodes。
- 针对这些barcodes的RNA图谱,基于采用基于基因的多项式分布,创建背景模型,并通过Simple Good-Turing平滑技术为未观察到的基因提供非零的模型估计。
- 将每个未在第一步鉴定中被识别为细胞的barcode的RNA图谱与背景模型进行比较,那些与背景模型明显不符的barcode被识别为细胞。

V(D)J分析的主要目的是从原始测序数据中提取B细胞或T细胞的V(D)J基因序列与克隆型。这个过程通常可以适应不同的测序平台和数据格式。因此,V(D)J分析流程支持多个测序平台的FASTQ文件。

例如,在数据分析层面,V(D)J分析软件IgBlast可以处理来自多个测序平台的FASTQ文件,包括Illumina、华大和Ion Torrent。当然,MobiVision分析软件也可以处理来自不同测序平台的FASTQ文件。然而,由于每种测序平台的读长和质量特征都不同,因此在进行V(D)J分析时可能需要考虑这些因素的影响。

V(D)J分析流程通常可以支持单端的reads,包括只有一端reads包含有V(D)J基因信息的情况。不过,这取决于所使用的V(D)J分析软件和具体的实验设计。

对于单端的reads,V(D)J分析软件通常会对reads进行一些额外的预处理和过滤,以提高V(D)J重排和克隆型识别的准确性。MobiVision可以处理单端或双端的FASTQ文件,指定V(D)J基因在reads的哪个位置上,并且可以识别测序的reads来自哪些Barcodes,并确定V(D)J基因的重链与轻链,从而进行有效的V(D)J分析。

需要注意的是,对于只包含V(D)J基因信息的单端reads,由于缺少一些其他的序列信息如UMI,可能会影响单细胞V(D)J分析的准确性和可靠性。因此,在进行实验设计时,应该尽量选择适当的测序方案,以保证能够获取充分的序列信息来支持VDJ分析。

对于特别不常见的物种,构建一个参考基因组序列文件可能是一个具有挑战性的任务,因为缺乏可用的参考基因组或基因组注释数据。以下是一些可能有用的方法:

  1. 基于已知的近缘物种: 可以基于已知的近缘物种的基因组序列,利用基因组序列比对和组装技术来构建目标物种的参考基因组序列。这种方法需要有足够相似的基因组序列和足够的比对深度。
  2. RNA-Seq数据拼接: 如果目标物种的RNA-Seq数据可用,可以利用RNA-Seq reads拼接出转录组序列,再利用转录组序列和相关的比对工具如BLAST和STAR等进行基因组组装和注释。这种方法适用于不需要完整的基因组序列的情况下。
  3. 亚基因组注释: 如果没有可用的基因组数据,可以考虑使用亚基因组注释的方法。即先利用相关的比对工具如BLAST和HMMER等将已知物种的基因组注释信息映射到目标物种的基因组上,并据此推断目标物种的基因组组成和结构。
  4. 三代测序辅助装配: 可以考虑使用更快速和更精确的三代测序辅助装配技术,如Oxford Nanopore和PacBio SMRT等单分子测序技术。这些技术可以产生长读长的测序数据,有助于更好的基因组组装和注释。
但是,对于已经收集到基因组fa文件与基因组注释文件gtf或gff的物种,可以直接使用mk_vdj_ref进行构建,具体构建方法请见(提供相应页面的软链)。

在进行原始FASTQ文件的分析之前,通常需要对文件进行命名。虽然不同的实验室和分析流程可能有不同的命名规则,但通常应该满足以下一些基本要求:

  1. 文件名应该能够清晰地反映样本来源,包括样本编号、组织来源、处理方式等信息。这些信息可以用下划线或短横线等字符分隔,例如:
    Sample1_Blood_RNAseq_R1.fastq(.gz)与Sample1_Blood_RNAseq_R2.fastq(.gz)。
  2. 文件名应该包含一些关键的实验信息,例如测序类型与测序平台等信息。这些信息可以用下划线或短横线等字符分隔,例如:Sample1_Blood_RNAseq_Illumina_PE.fastq(.gz)。
  3. 文件名应该能够唯一标识每个FASTQ文件,避免重复命名或覆盖已有数据。可以使用独特的文件名或带有时间戳的命名方式,例如:Sample1_Blood_RNAseq_Illumina_PE_20220331.fastq(.gz)。
需要注意的是,命名规则应该保持一致,并且尽可能遵守一些通用的命名约定,以便于数据管理和共享。此外,一些分析软件和工具可能需要特定的文件名格式,因此在进行分析前应该查看相应软件的文档,以确定文件名的具体要求。墨卓的单细胞V(D)J输入文件命名方式详见第8个问题。

单细胞VDJ测序数据量的合适大小取决于多种因素,包括样本复杂度、测序深度、实验设计等。

一般来说,单细胞V(D)J测序的目的是获得尽可能完整的克隆型信息,因此需要足够的测序深度来支持高质量的重排和克隆型识别。根据经验,每个单细胞至少需要测序到4000条reads,以保证高质量的VDJ分析结果。

需要注意的是,对于不同的实验设计和研究问题,需要根据实际情况来选择合适的测序数据量。对于一些研究问题,可能需要更深的测序深度,而对于一些其他问题,可能只需要较少的测序数据量。因此,在进行实验设计和数据分析时,应该综合考虑多种因素,并根据实际需要来选择合适的测序数据量。

Fraction Reads in Cells是单细胞测序数据分析中的一个关键指标,用于评估测序数据的质量和单细胞捕获的效率。它表示在所有测序数据中,能够被分配到单个细胞的reads所占的比例。通常来说,Fraction Reads in Cells越高,代表单细胞测序的效果越好,样本中的单个细胞被捕获的概率越高。

当Fraction Reads in Cells比例比较低时,可能意味着以下一些情况:

  1. 单细胞捕获效率较低:可能是由于实验操作或测序技术等因素导致单细胞捕获效率较低,需要进一步优化实验条件和测序参数。
  2. 样本质量不佳:可能是由于样本的RNA降解与细胞质破裂等因素导致的单细胞的RNA质量不佳,进而影响单细胞测序的效果。
  3. 数据质量不佳:可能是由于低质量的reads、低覆盖度等因素导致无法将reads分配到单个细胞中,这需要进行更严格的数据质量控制和过滤。

值得注意的是,Fraction Reads in Cells的理想值是依赖于实验设计和测序技术等因素,并不存在一个固定的阈值。在进行单细胞测序数据分析时,需要结合其他指标和分析结果来综合评估数据质量和单细胞捕获效率。

Paired Clonotype Diversity是单细胞VDJ测序数据中用来评估克隆型多样性的一个指标。它基于同一细胞中的配对的重链和轻链VDJ重排信息,计算出同一细胞中的克隆型数量,并对不同细胞的克隆型进行聚类,得到每个聚类中包含的不同克隆型数量。Paired Clonotype Diversity指标即为不同聚类中克隆型数量的平均值,通常用来描述单个细胞内的克隆型多样性。

Paired Clonotype Diversity计算的具体过程如下:

  1. 对每个细胞中的重链和轻链VDJ序列进行拼接,得到一个全长的VDJ序列。。
  2. 利用VDJ分析软件对全长VDJ序列进行克隆型分析,得到同一细胞中的克隆型信息。
  3. 对同一细胞中的克隆型进行聚类分析,得到不同聚类中包含的克隆型数量。。
  4. 计算所有克隆型的细胞数的逆辛普森指数,得到PairedClonotype Diversity指标。
Paired Clonotype Diversity的值越高,代表单细胞内克隆型的多样性越高,单个细胞中包含的不同克隆型数量越多。该指标可以用来比较不同细胞类型、不同实验条件和不同处理方式对单细胞内克隆型多样性的影响。需要注意的是,Paired Clonotype Diversity能反映样品内的克隆型多样性。在墨卓的websummary.html质控结果的VDJ注释部分,含有Paired Clonotype Diversity的结果值,可以为克隆型多样性提供参考。

image.png

MobiVisoion vdj的命名无需固定一种方式命名。从上述的命名规则中,我们可以看到其ReadType有四种命名形式,Suffix也有4种命名形式,目前MobiVision可以支持16种命名形式。用户在二代测序结束下机后获取的的fastq文件,只要命名合理,一定程度可以直接进行MobiVision vdj分析,无需对样本名改名。

MobiVision TCR/BCR建议每次TCR/BCR测序测30Mreads;9G数据。在16核,64GB的运行情况下,大约一个小时就能完成,若改变线程数与调整内存数,运行时间可能发生变化。MobiVision v1.6.1运行设置的默认线程数是8,若没有特殊的要求,可以按照此线程数运行。
针对30M reads左右的样本,当线程数在8以下时,增加线程数可以显著的减少分析时间,并且不会显著增加分析内容 ; 针对30M reads左右的样本,当线程数在8以上时,增加线程数不会显著减少分析时间,但会大大增加内存的使用量 。因此针对30M reads左右的文库,推荐8个线程。如果资源较丰富,可以使用16线程。 内存的使用量和运行的时间与文库本身大小及设置的线程数有关,当文库大小达30M reads时,我们建议分析时的内存为16GB即可
MobiVision vdj运行默认情况下,为auto参数,可以自动识别TCR与BCR。但是,当数据质量不是很好,流程无法识别TCR与BCR模式时,可能需要手动指定TCR或者BCR类型。
单细胞5’转录组与V(D)J联合分析时,细胞数目相差较大,一般会出现在两种情况下。一种是V(D)J细胞数量远小于GEX细胞数量,常见于TCR,由于TCR基因的常低表达,有时候不能拼接全长,丢失了一些真实的基因,造成假阴性的结果;另一种是VDJ细胞数量远高于GEX细胞数量,常见于BCR,由于BCR基因的常高表达,特别是含有浆细胞时,会有较多的背景mRNA,导致空液滴也会被计算在内,造成假阳性的结果。因此,将VDJ结果与5'转录组数据的联合分析会提高分析结果的准确性。
当然不可以,单细胞转录组和单细胞V(D)J的参考基因组在很大程度上是不同的,虽然它们都针对同一个物种。然而,在分析和处理数据时,它们的关注点和应用场景有所不同,单细胞免疫组库主要关注免疫受体的V(D)J重组和克隆型,以了解免疫细胞的多样性、克隆扩张和免疫应答。因此,在构建针对单细胞免疫组库的参考基因组时,需要特别关注免疫受体相关基因,如V、D、J基因的注释和数据库。单细胞转录组研究则关注整个基因组范围内的基因表达,以揭示不同细胞类型和状态的转录特征。因此,在构建单细胞转录组的参考基因组时,需要考虑全基因组范围内的基因注释和数据库。