支持中心
Tech Support
MobiNova平台产生的VDJ文库示意图如下:
从上面的VDJ结构可知,其Read1的5’端均为细胞标签序列(20bp)和UMI序列(10bp)。为了确定Read1所携带的细胞标签序列是否正确,MobiVision会将测序片段中的细胞标签序列和已知白名单中的细胞标签序列进行比对。目前MobiCube 高通量单细胞 V(D)J v1.0试剂盒提供近3,000,000种细胞标签序列。符合以下条件的测序片段将被保留:
通过的测序片段,Read1仅保留纠正后的细胞标签序列和UMI序列,Read2在该步骤暂不做处理。
对于纠正细胞标签序列后的fastq数据中
将inner primers比对到fastq插入片段中,然后计算来自于TCR的inner primers比对reads数占所有inner primers比对reads数的比例,如果该比例大于80%,则认为该文库是TCR类型的文库;该比例小于20%,则认为该文库是BCR类型的文库,否则是ALL类型(BCR+TCR类型)的文库。
为了保证拼接的有效性和速度,我们将所有reads比对到VDJ 的reference序列中,剔除未必对上的reads。仅对比对上的reads用于后续的拼接分析。
收集来自同一个Barcode的reads,组成一套fastq文件,利用De Brujin算法对短片段进行转录本拼接,最终获得全长信息(contig)。contig的每个碱基都被赋予碱基质量值,UMI和reads个数也被记录。针对所有的barcodes,执行同样的操作,就可以获取每个barcode中的contig信息。
VDJ注释的目的是找到一个具有生物学功能,有效的蛋白受体/产物,需要满足以下条件:1.结构完整,即是全长序列; 2.起始于密码子,VJ区域没有终止密码子; 3. J基因的最后一个密码子-V基因的起始密码子/3是整数; 4.序列中包含CDR3区域,并且V-J跨越的区域长度合理,避免结构异常; 5.VJ(reference的片段总长)-len(最后一个密码子-V的第一个密码子)在-25-25个氨基酸之间,IGH在-55-25氨基酸之间。
CDR3的确定方法:寻找CDR3左右侧保守的motif序列,起始于C氨基酸,5-27个氨基酸长度,不含终止密码子。若找到不止一个CDR3序列,得分最高的被当作是CDR3区域,如果得分一样,则选择较长的CDR3序列。
Barcode的过滤要基于该Barcode中是否存在有效的contig,存在有效的contig才会认为该细胞为真的细胞而不是空胞或者双胞。一般需满足以下条件筛选表达V(D)J基因的细胞。只有T或B细胞才会有vdj重排,产生全长转录本,过滤的Barcode要有足够的UMI count支持,避免背景mRNA干扰。此外,UMIs要有足够的reads支持,避免文库污染和Sample index跳跃。
细胞Barcode分组形成不同的克隆型,即找到有相同或相似的配对受体序列,将细胞barcode分组成不同的克隆型。
克隆型的结果包含以下内容,可用于后续下游分析。
1.clonotype_id
2.clonetype id frequency 对应的细胞Barcode的数量
3.proportion 对应的细胞Barcode占比
4.CDR3_aa CDR3的氨基酸序列
5.CDR3_nt CDR3的核苷酸序列
mobivision vdj在运行时,会对整个文库的原始数据及分析结果进行统计,最终生成质控报告。该报告是对整个文库的如实反馈,旨在帮助用户从宏观角度了解文库原始数据质量及分析结果质量,并未作任何数据上的筛选或过滤。如有需要,用户可根据质控报告结果,对文库结果进行调整后,再开始下游分析。