分享

记一次紧张害怕转危为安的测序实验

 微微悦明 2021-12-13

我以前一直以为illumina的下机数据就是按照barcode分好样的fastq文件

(关于fastq文件可以查看前贴FastQC 你需要知道的在这里!

可是一次实验室惨案让我意外的发现,竟然不是呢!

故事是这样的,上个月笔者经历了一次非常艰苦的测序过程,熬了个通宵千辛万苦好不容易才成功建库的呢。眼看着上机后Q30比例和cluster都很完美,笔者就放心的回去休息了,可一觉醒来下机后我竟然愕然发现上机的6个样本的fastq测序文件大小竟然为0!这怎么可能,测序通量和产出明明都很正常的啊。

经过一番紧张细致的排查后,笔者才发现,原来是所有的序列都被分到了Undetermined文件里了(注:其于illumina测序仪中用于存放未能被正确分样的序列文件)。

再进一步回查上机文件(Samplesheet.txt)笔者才发现,

原来是上机设置中的barcode序列(index)输错啦!!我晕,这种低级错误也能出现,笔者不知道要该自罚多少个鸡腿才好了。

问题是发现了,可是该怎么解决呢? 现在上机的6个样本序列像一锅粥一样完全都混在了一起,不能区分了呢。

感谢illumina工程师的电话支持解惑,我才知道:

原来!illumina的下机文件不是fastq,而是bcl格式文件(per-cycle BCL basecall file)。我们看到的fastq文件事实上是测序仪自带电脑里的bcl2fastq软件按照上机时设置的samplesheet进行的转换和拆分后生成的呢。

所以!发生barcode错误设置问题后,我们可以修正samplesheet文件后利用bcl2fastq程序重新运行拆分操作,得到正确的测序fastq文件。

具体操作方法如下:

1、安装bcl2fastq程序

程序的安装包可通过illumina官网下载:

https://support./sequencing/sequencing_software/bcl2fastq-conversion-software.html

也可以通过github下载:

https://github.com/brwnj/bcl2fastq

安装方法也比较简单,如下载的源码,可以通过以下命令安装:

python setup.py install

如下载的rpm包,则可以通过以下命令安装

yum install -y your.rpm

2、准备输入文件

将需要重新拆分的illumina下机文件中的Data文件夹(包含了所有的bcl文件)复制黏贴到新的路径下,同时将该轮上机产生的RunInfo,Runparameter以及samplesheet文件放置到和Data文件夹相同的路径下。注意samplesheet文件是修正过的哦~

3、运行bcl2fastq重新拆分和生成fastq文件

bcl2fastq --runfolder Data复制后所在路径

一番紧张的操作后,bingo~我的测序数据回来啦!6个样本的数据清清楚楚的列出来啦~一切恢复正常

虽说是转危为安,可是过程实在太紧张了,希望以后不会再有这样的事情发生了~ 阿弥陀佛

PS:意外的发现,bcl2fastq还有两个好的功能点:

功能点1:我们可以自行调整分样时对index的容忍度,比如可以兼容1个或多个位点的错误。相关参数可通过--barcode-mismatches调整。

功能点2:利用bcl2fastq拆分可对undetermined文件中的序列列出其barcode情况,这些信息可以协助我们排查其未能正确划分的原因。


微信号:

Mypathogen

微微悦明

科学的乐趣是获得新知识的喜悦

高通量测序、大数据

病原微生物检测和监测

健康大数据行业资讯记录与分享

每一天获得一点微小的收获和进步。小确幸的科研也很好。与君共勉!

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多