在我写的基因组survey介绍了如何通过jellyfish统计k-mer然后绘制k-mer分布图研究基因组的方法。由于最近又在搞基因组survey,又检索了一波资源,发现了一个分析工具,所以有了这篇教程。 GenomeScope 是2017年发表在 bioinformatic 的一个工具,最近一次更新在2018年2月16日。这个工具的目的就是处理一些高复杂度的基因组,比如说高杂合度(菠萝, >1%),或者是多倍体(8倍体的甘蔗),或者基因组非常的大(小麦是16G)。 它的作用就是通过分析k-mer count分布,给出基因组的一些基本信息:
注: 它无法预测倍性 软件安装GenomeScope无需安装,它们提供了网页工具 http:///,我们只需要安装jellyfish即可。
软件使用首先,得获取k-mercount的分布。虽然jellyfish的用法可能比较复杂,但是这里只要用到两行命令即可,
几个建议:
之后将得到的reads.histo 上传到 http://qb./genomescope/ 选择continue之后,就会有如下信息,选择continue即可。 等待运行几分钟后,网页就会结果 kcov指的是杂合峰的覆盖度。 软件使用时的一个问题: 基因组预测大小和第一个页面中 Max kmer coverage 密切相关。我设置了1000和10000,基因组相差30M。 作者给出的解释是,GenomeScope默认会过滤掉出现1000次以上的kmers,避免细胞器基因组的影响,如果你觉得基因组小了,那么就把数值调整的大一点。 |
|