分享

Hisat2-Align 完成!-Win / Mac, 成功伴随失败。

 生信药丸 2021-07-26

前两天推了下 Hisat2-build 插件,目前尚未对任何人开放。事实上,同一天,我也完成了 Hisat-Align,也就是,可以直接在 Windows 下跑Hisat2了。最近事情比较多,我抽空试了一下,大体简单提一下几点,后面有时间了,再写写推文吧。

  1. 香蕉基因组(~500Mb),建立索引,估计需要不到 1G 内存 - 可以说绝大多数非模式生物,应该都能用,假设你有 8Gb 内存,那么你可能做6Gb以下的基因组索引构建问题不大(猜测)。当然,索引其实可以让别人在服务器给你构建好,那就。。。不在担心。

  2. 我开了 4 个线程进行比对,大概花了 5min 完成比对,用不超过 700Mb 的内存 - 说实话,真的有点快,可能是因为我直接在固态硬盘上跑的吧。

  3. 在windows下,系统文件类型的限制,尝试了非常非常多种方式和想法,无法解决 fifo 的问题,所以不支持.gz 压缩的读段文件,这意味着fq.gz 必须解压之后再align

  4. 尝试修改 hisat2 源码,看了下设计之后,调整并失败。相比于 bowtie (hisat2 复用了大量bowtie源码),hisat2 的抽象程度更高了。

  5. 使用 java code,尝试直接排序 hisat2 输出的 sam 文件,花了十几分钟,我觉得对于一个 sam 文件(13Gb),这个时间还是太长。选择舍弃这块。
    最后,附上两张图,说明 TBtools 的 Hisat2 部分基本完结。

最后呢,

最近一直在想,TBtools 可能挺适合 课堂教学 演示?

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多