分享

使用GenomeScope进行基因组分析

 生物_医药_科研 2019-05-20

在我写的基因组survey介绍了如何通过jellyfish统计k-mer然后绘制k-mer分布图研究基因组的方法。由于最近又在搞基因组survey,又检索了一波资源,发现了一个分析工具,所以有了这篇教程。

GenomeScope 是2017年发表在 bioinformatic 的一个工具,最近一次更新在2018年2月16日。这个工具的目的就是处理一些高复杂度的基因组,比如说高杂合度(菠萝, >1%),或者是多倍体(8倍体的甘蔗),或者基因组非常的大(小麦是16G)。

它的作用就是通过分析k-mer count分布,给出基因组的一些基本信息:

  • 基因组大小

  • 基因组杂合度

  • 基因组重复序列比例

: 它无法预测倍性

软件安装

GenomeScope无需安装,它们提供了网页工具 http:///,我们只需要安装jellyfish即可。

  1. conda install -c bioconda jellyfish

软件使用

首先,得获取k-mercount的分布。虽然jellyfish的用法可能比较复杂,但是这里只要用到两行命令即可,

  1. jellyfish count -C -m 21 -s 1000000000 -t 10 *.fastq -o reads.jf

  2. jellyfish histo -t 10 reads.jf > reads.histo

几个建议:

  • K-mer设置为21(-m 21)

  • 测序深度不得低于25X

  • 建议illumina测序

  • 如果服务器资源很多,可以增加线程数(-t)

之后将得到的reads.histo 上传到 http://qb./genomescope/

选择continue之后,就会有如下信息,选择continue即可。

等待运行几分钟后,网页就会结果

kcov指的是杂合峰的覆盖度。

软件使用时的一个问题:

基因组预测大小和第一个页面中 Max kmer coverage 密切相关。我设置了1000和10000,基因组相差30M。 作者给出的解释是,GenomeScope默认会过滤掉出现1000次以上的kmers,避免细胞器基因组的影响,如果你觉得基因组小了,那么就把数值调整的大一点。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多