MobiVision转录组算法介绍

算法概览

mobivision quantify可以用于分析MobiNova平台下机的单细胞转录组数据,关键分析步骤如下图所示:

细胞标签纠正

MobiNova平台下机的单细胞转录组分为3'转录组和5’转录组两种,均可使用mobivision quantify进行分析。

单细胞3'转录组Read结构如下图所示:

单细胞5'转录组Read结构如下图所示:

从Read结构可知,无论是5'转录组还是3'转录组,其Read1的5’端均为细胞标签序列(20bp)和UMI序列(10bp)。为了确定Read1所携带的细胞标签序列是否正确,MobiVision会将测序片段中的细胞标签序列和已知白名单中的细胞标签序列进行比对。目前MobiCube 高通量单细胞3'转录组v2.0试剂盒提供近3,000,000种细胞标签序列。符合以下条件的测序片段将被保留:

  • Read1的细胞标签存在于白名单中;
  • Read1的细胞标签不存在于白名单中,但与白名单中的细胞标签最小汉明距离<=2,并根据白名单中的细胞标签,对Read1中的细胞标签进行纠正。

通过的测序片段,Read1仅保留纠正后的细胞标签序列和UMI序列,Read2在该步骤暂不做处理。

插入片段修剪

对于纠正细胞标签序列后的fastq数据,理论上,Read1不再含有接头序列,因此无需特殊处理。

  • 单细胞3'转录组的fastq数据,Read2片段5'端可能存在30bp的TSO序列(“AAGCAGTGGTATCAACGCAGAGTACATGGG”),3’端可能存在poly A序列。而TSO序列和poly A序列的存在,会有效降低文库的比对率,因此在比对前,需要将插入片段两端可能存在的TSO序列和poly A序列去除。单细胞5'转录组的fastq序列,Read2片段的5’端可能存在poly T序列,3'端可能存在13bp的TSO反向互补序列(“CCCATATAAGAAA”),同样需要在比对前去除。
  • 去除接头序列及poly A和poly T可能导致保留下来的插入DNA片段过短,而过短的DNA片段会增加错配的概率,因此,在完成接头序列去除后,还需要过滤除去插入DNA片段小于30bp的Read。

测序片段比对

mobivision quantify的采用STARsolo进行比对,比对注释结果如下图所示:

  • 当测序片段有超过50%的长度比对至外显子区域时,则认为该片段为Exonic Read;
  • 当测序片段有大于等于50%的长度比对内含子区域时,则认为该片段为Intronic Read;
  • 当测序片段可比对至基因组,但既不属于Exonic Read,又不属于Intronic Read时,则认为该片段为Intergenic Read;
  • MobiVision v2.0及以后版本在统计antisense reads时,默认的操作模式是包含内含子(--intron included)。在这种模式下,只要一个测序片段有大于或等于50%的长度比对至内含子和/或外显子区域的反义链方向,该片段就被定义为反义链read。而如果选择了--intron excluded模式,那么该测序片段必须要有100%的长度比对至外显子区域的反义链方向,才能被定义为反义链read。
  • MobiVision v2.0及以后版本在统计transcriptomic reads时,默认的操作模式是包含内含子(--intron included)。在这种模式下,只要一个测序片段有大于等于50%的长度比对至内含子和/或外显子区域,该片段就被定义为transcriptomic read。而如果选择了--intron excluded模式,那么该测序片段必须要有100%的长度比对至外显子区域,才能被定义为transcriptomic read。

mobivision quantify记录了所有比对到基因组上的测序片段,其中,当测序片段比对质量MAPQ=255时,表示该测序片段比对至基因组唯一区域。而只有唯一比对至转录组区域的测序片段,才会进入下游的UMI计数。

UMI计数

在进入UMI计数前,需要剔除Reads比对结果中,不符合条件的UMI。

  • 由相同碱基构成的UMI需去除;
  • 含有N的UMI需去除;
  • 1个或多个相同的UMI比对到同一基因上时,UMI Count记为1;多个相同的UMI比对到不同的基因上时,保留比对至同一基因上UMI最多的比对情况,去除比对至其他基因的UMI,UMI Count记为1;
  • 两个UMI之间仅相差1个碱基,且比对到相同基因,则认为这两个UMI相同,保留其中一个UMI,UMI Count记为1。

经过上述过滤条件,保留下来的UMI信息和细胞标签序列可构建生成raw-cell-gene-matrix矩阵。

细胞过滤

mobivision quantify目前提供两种细胞过滤的算法,分别是CR2.2EmptyDrops (Lun等人于2019年发表在Genome biology中的算法)。如果用户需要指定细胞数目,也可通过--cellnumber INT 来选择含有UMI数目排列前INT个的细胞标签作为有效细胞。

对于来源于两个物种的混合样本,例如人和小鼠,mobivision quantify将细胞分成了三种情况:来源于人的细胞、来源于小鼠的细胞及人鼠混合的细胞(multiplet)。mobivision quantify认为,单个细胞标签中,只有不少于90%的UMI分子来源同一物种,该细胞标签才会被认为来是源于这个物种的细胞。例如,当某个细胞标签中,80%的UMI来源于物种1,另外20%的UMI来源于物种2,那么mobivision quantify会判定该细胞为multiplet。虽然mobivision quantify无法直接判断文库中的双胞或多胞率,但是通过multiplet的计算,我们可以间接评估文库中双胞或多胞的情况。若文库中存在双胞或多胞的情况,那么理论上,物种1+物种1的情况应占1/4,物种2+物种2占1/4,物种1+物种2占1/2。例如,某双物种文库中,multiplet rate为5%,可以估算,该文库中,双胞或多胞率应在10%左右。

质控报告

mobivision quantify默认在filtered-cell-gene-matrix细胞表达矩阵生成后,对整个文库的原始数据及分析结果进行统计,生成质控报告。该报告是对整个文库的如实反馈,旨在帮助用户从宏观角度了解文库原始数据质量及分析结果质量,并未作任何数据上的筛选或过滤。如有需要,用户可根据质控报告结果,对文库结果进行调整后,再开始下游分析。