使用GenomeScope进行基因组分析

生物_医药_科研 2019-05-20

展开全文

在我写的基因组survey介绍了如何通过jellyfish统计k-mer然后绘制k-mer分布图研究基因组的方法。由于最近又在搞基因组survey，又检索了一波资源，发现了一个分析工具，所以有了这篇教程。

GenomeScope 是2017年发表在 bioinformatic 的一个工具，最近一次更新在2018年2月16日。这个工具的目的就是处理一些高复杂度的基因组，比如说高杂合度(菠萝, >1%)，或者是多倍体(8倍体的甘蔗)，或者基因组非常的大(小麦是16G)。

它的作用就是通过分析k-mer count分布，给出基因组的一些基本信息:

注: 它无法预测倍性

软件安装

GenomeScope无需安装，它们提供了网页工具 http:///，我们只需要安装jellyfish即可。

首先，得获取k-mercount的分布。虽然jellyfish的用法可能比较复杂，但是这里只要用到两行命令即可，

jellyfish count -C -m 21 -s 1000000000 -t 10 *.fastq -o reads.jf
jellyfish histo -t 10 reads.jf > reads.histo

几个建议:

之后将得到的reads.histo 上传到 http://qb./genomescope/

选择continue之后，就会有如下信息，选择continue即可。

等待运行几分钟后，网页就会结果

kcov指的是杂合峰的覆盖度。

软件使用时的一个问题：

基因组预测大小和第一个页面中 Max kmer coverage 密切相关。我设置了1000和10000，基因组相差30M。作者给出的解释是，GenomeScope默认会过滤掉出现1000次以上的kmers，避免细胞器基因组的影响，如果你觉得基因组小了，那么就把数值调整的大一点。

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：生物_医药_科研 > 《待分类》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多