拿到fastq文件的第一步是进行备份。使用gzip以及md5将文件压缩备份,并将其md5信息及实验信息写在readme文件中。 第二步去除barcodes。barcodes是在混合测序中运用到的一个区分测序样品的手段,使用不同的barcode,就可以将不同来源的样品区分出来。barcode是一段很短的oligo,比如ATCACG等。它很有可能是由一段酶切位点的一部分加上几个碱基组成。因为barcode半不是真实的序列,而是人为加上去的,所以需要把它从测序结果中去除。在去除的同时,需要你可以依据自己的实验设计,使用barcode信息将不同来源的测序结果分割开。 第三步是了解测序质量。可以使用fastqc工具。这一工具有用户界面,使用十分简单。 第四步是对fastq文件依据测序质量进行筛选。 以上这些步骤有很多可以使用的工具软件,这里推荐的是FASTX-Toolkit。 以上这些步骤都是最基础的步骤,一开始是fastq文件,最终得到的依然是fastq文件。 接下来的工作,可能会用到,那就是将fastq文件转换成unique sequence count文件。 TTGCCTGCCTATCATTTTAGTGCCTGTGAGGTGGAGATGTGAGGATCAGT 2345 GATTTGTATGAAAGTATACAACTAAAACTGCAGGTGGATCAGAGTAAGTC 2241 这种文件的好处是文件小,适合网络传输,但其缺点是完成丢失了测序质量信息。可以使用miRanalyzer提供的工具完成。 还有一种是miRdeep使用的fa格式,它的每一条序列名都是由name_uniqueNumber_xNumer这种格式组成,比如: >PAN_123456_x969696 ATACAATCTACTGTCTTTCCT 这种格式可以使用miRDeep2中的mapper.pl来完成。 |
|
来自: zhuqiaoxiaoxue > 《目前所看文献》