分享

使用bowtie2去除宿主序列

 CharlesNice 2020-12-11

在研究组织或者肠道微生物时,常常需要去除宿主的DNA序列,以防止宿主的序列干扰研究。去宿主序列的主要研究方法是通过将质控后的序列与宿主基因组进行比对,将比对上的序列进行去除。比对软件通常有bowtie、bwa、SOAPaligner等短序列比对工具,去宿主比对的话通常选择bowtie2。

构建索引

用bowtie2-build来构建新的index

  1. bowtie2-build --threads 20 human.fa human.fa

运行结束后,生成6个文件

比对

bowtie2命令

  1. bowtie2 [options] -x <bt2-idx> { -1 <m1> -2 <m2> | -U <r>} [-S <hit>]

  2. <文件>:

  3. -x <bt2-idx>

  4. 参考基因组(reference genome)通过bowtie2-build指令构建的Index文件

  5. -1 <m1>

  6. 双末端测序中第一个fastq文件,可以写多个文库但是必须用逗号隔开,但文件m1与文件m2必须一一对应,测序文件中的Reads的长度可以不同。

  7. -2 <m2>

  8. 双末端测序对应的第二个fastq文件,与文件m1对应

  9. -U <r>

  10. 与前面的文件1,文件2为或的关系,此处的文件是非双末端比对文件。例如lane1.fq,lane2.fq,lane3.fq,lane4.fq。可以是多个文件,但是必须用逗号隔开。

  11. -S <hit>

  12. 指定输出文件,后缀是sam的格式的文件,默认标准输出

  13. [options]:

  14. -q

  15. Reads(用<m1>,<m2>,<s>指定)是FASTQ格式的文件,默认即FASTQ

  16. --qseq

  17. Reads(用<m1>,<m2>,<s>指定)是QSEQ格式的文件。

  18. -f

  19. Reads(用<m1>,<m2>,<s>指定)是FASTA文件。

  20. -r

  21. Reads(用<m1>,<m2>,<s>指定),每行代表一个输入序列,没有任何其他信息(无read名称,无qualities)。

  22. -c

  23. 后面直接是比对的reads序列(而不是文件),即reads序列在命令行上给出。

  24. -s/--skip <int>

  25. <int>中是数字,inputreads跳过前<int>个readsread pairs

  26. -u/--qupto <int>

  27. 比对前<int>个readsread pairs,然后停止。

  28. -5/--trim5 <int>

  29. 剪掉5'(左)端<int>长度的碱基,再用于比对(默认值0)

  30. -3/--trim3 <int>

  31. 剪掉3'(右)端<int>长度的碱基,再用于比对(默认值0

  32. --phred33

  33. 输入的序列质量数据为Phred33体系(默认为phred33

  34. --phred64

  35. 输入的序列质量数据为Phred64体系

  36. -p

  37. 程序运行所用核数

比对去宿主

  1. bowtie2 -p 4 --un-gz sample.filter --un-conc-gz sample.filter -x human -1 sample.clean_1.fq.gz -2 J2.clean_2.fq.gz

输出结果中sample.filter.1.fq.gz和sample.filter.2.fq.gz即为去除宿主之后的reads,可以进入下一步的分析。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多