分享

NGS分析入门:fastq文件的处理 ← 糗世界

 zhuqiaoxiaoxue 2016-03-22

拿到fastq文件的第一步是进行备份。使用gzip以及md5将文件压缩备份,并将其md5信息及实验信息写在readme文件中。

第二步去除barcodes。barcodes是在混合测序中运用到的一个区分测序样品的手段,使用不同的barcode,就可以将不同来源的样品区分出来。barcode是一段很短的oligo,比如ATCACG等。它很有可能是由一段酶切位点的一部分加上几个碱基组成。因为barcode半不是真实的序列,而是人为加上去的,所以需要把它从测序结果中去除。在去除的同时,需要你可以依据自己的实验设计,使用barcode信息将不同来源的测序结果分割开。

第三步是了解测序质量。可以使用fastqc工具。这一工具有用户界面,使用十分简单。

第四步是对fastq文件依据测序质量进行筛选。

以上这些步骤有很多可以使用的工具软件,这里推荐的是FASTX-Toolkit

以上这些步骤都是最基础的步骤,一开始是fastq文件,最终得到的依然是fastq文件。

接下来的工作,可能会用到,那就是将fastq文件转换成unique sequence count文件。
其中一种文件是tab间格的文本,格式为:

TTGCCTGCCTATCATTTTAGTGCCTGTGAGGTGGAGATGTGAGGATCAGT    2345
GATTTGTATGAAAGTATACAACTAAAACTGCAGGTGGATCAGAGTAAGTC    2241

这种文件的好处是文件小,适合网络传输,但其缺点是完成丢失了测序质量信息。可以使用miRanalyzer提供的工具完成。

还有一种是miRdeep使用的fa格式,它的每一条序列名都是由name_uniqueNumber_xNumer这种格式组成,比如:

>PAN_123456_x969696
ATACAATCTACTGTCTTTCCT

这种格式可以使用miRDeep2中的mapper.pl来完成。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多