NGS分析入门：fastq文件的处理 ← 糗世界

zhuqiaoxiaoxue 2016-03-22

展开全文

拿到fastq文件的第一步是进行备份。使用gzip以及md5将文件压缩备份，并将其md5信息及实验信息写在readme文件中。

第二步去除barcodes。barcodes是在混合测序中运用到的一个区分测序样品的手段，使用不同的barcode，就可以将不同来源的样品区分出来。barcode是一段很短的oligo，比如ATCACG等。它很有可能是由一段酶切位点的一部分加上几个碱基组成。因为barcode半不是真实的序列，而是人为加上去的，所以需要把它从测序结果中去除。在去除的同时，需要你可以依据自己的实验设计，使用barcode信息将不同来源的测序结果分割开。

第三步是了解测序质量。可以使用fastqc工具。这一工具有用户界面，使用十分简单。

第四步是对fastq文件依据测序质量进行筛选。

以上这些步骤有很多可以使用的工具软件，这里推荐的是FASTX-Toolkit。

以上这些步骤都是最基础的步骤，一开始是fastq文件，最终得到的依然是fastq文件。

接下来的工作，可能会用到，那就是将fastq文件转换成unique sequence count文件。
其中一种文件是tab间格的文本，格式为：

TTGCCTGCCTATCATTTTAGTGCCTGTGAGGTGGAGATGTGAGGATCAGT    2345
GATTTGTATGAAAGTATACAACTAAAACTGCAGGTGGATCAGAGTAAGTC    2241

这种文件的好处是文件小，适合网络传输，但其缺点是完成丢失了测序质量信息。可以使用miRanalyzer提供的工具完成。

还有一种是miRdeep使用的fa格式，它的每一条序列名都是由name_uniqueNumber_xNumer这种格式组成，比如：

>PAN_123456_x969696
ATACAATCTACTGTCTTTCCT

这种格式可以使用miRDeep2中的mapper.pl来完成。

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自： zhuqiaoxiaoxue > 《目前所看文献》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

zhuqiaoxiaoxue

关注对话

TA的最新馆藏

[转] GEO数据挖掘小尝试：（三）利用clusterProfiler进行富集分析输入标题
[转] 第一作者 | 癌症大数据可视化的中国智造者，专访GEPIA和GE-mini APP作者唐泽方博士
[转] 中国制造:碉堡的TCGA可视化网站GEPIA
[转] 生物信息学常见1000个软件的安装代码！
[转] RNA和蛋白结合预测工具——catRAPID
LncRNA调控机制及研究策略

喜欢该文的人也喜欢更多

热门阅读换一换