分享

10x的单细胞转录组fastq文件的R1和R2不能弄混哦

 健明 2022-06-04 发布于广东

差不多几个小时就可以完成全部的样品的cellranger的定量流程,但是如果初次接触这个 基于10x的单细胞转录组fastq文件的cellranger的定量流程,仅仅是看上面的推文,会漏掉一些基础知识,仅仅是安装cellranger和跑它的标准代码而已。

这些基础知识非常重要,我们在单细胞天地多次分享过cellranger流程的笔记,大家可以自行前往学习,如下:

单细胞转录组数据和普通的bulk转录组还是不太一样,bulk结果一般就是R1、R2,很容易区分;10X单细胞数据比较特殊,它的测序文库中包括index、barcode、UMI和测序reads。

这里我们在解压sra文件变成fastq文件的时候,使用了参数--split-files输出3个fastq文件,但是它的文件名字并不是 R1和R2这样的格式,而前面的公众号推文给出来了一个示例是:

公众号的示例

然后一个初次接触单细胞原始测序数据的实习生接到项目后也是做了如下所示的转换:

错误的转换

会让人误以为都是这样的规律,实际上文件大小就会告诉你这样的命名是错误的。而且也可以看文件里面的内容:

文件内容

首先,1-26个cycle就是测序得到了26个碱基,先是16个Barcode碱基,然后是10个UMI碱基;通常是R1文件

然后,27-34这8个cycle得到了8个碱基,就是i7的sample index;通常是I1文件

最后35-132个cycle得到了98个碱基,就是转录本reads(目前很多测序仪都是150bp了),通常是R2文件

也就是说R2 文件是真正的测序reads,肯定是文件最大。如果文件名字弄错了,走cellranger的定量流程就会得到如下所示报错:

cellranger的定量流程报错

走完cellranger的定量流程,每个样品就会得到3个表达量矩阵文件(barcodes.tsv.gz,matrix.mtx.gz,genes.tsv.gz或者features.tsv.gz),然后就可以走seurat流程进行单细胞降维聚类分群。这样的基础分析,也可以看基础10讲:

写在文末

我在《生信技能树》,《生信菜鸟团》,《单细胞天地》的大量推文教程里面共享的代码都是复制粘贴即可使用的, 有任何疑问欢迎留言讨论,也可以发邮件给我,详细描述你遇到的困难的前因后果给我,我的邮箱地址是 jmzeng1314@163.com

如果你确实觉得我的教程对你的科研课题有帮助,让你茅塞顿开,或者说你的课题大量使用我的技能,烦请日后在发表自己的成果的时候,加上一个简短的致谢,如下所示:

We thank Dr.Jianming Zeng(University of Macau), and all the members of his bioinformatics team, biotrainee, for generously sharing their experience and codes.

十年后我环游世界各地的高校以及科研院所(当然包括中国大陆)的时候,如果有这样的情谊,我会优先见你。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多