分享

Tips | 提供JBrowse浏览器 = 公开了基因组!

 生信药丸 2021-07-26

写在前面

早晨,一个老朋友(也是 TBtools 的老用户)与我联系,大体是问了我一个事情gbff转gff3是否可以用TBtools?答案当然是可以,但我不建议。主要原因有二:

  1. 使用gbff,往往是基因结构注释很不完善

  2. gbff格式常常有变化,不一定有CDS等注释,可能只是一个记录信息

TBtools很早就有这个功能,但我没开放。也就这两个原因。但毕竟是老友,帮个小忙理所应当。我拿到他发来的gbff文件,用TBtools转化了一下,发现空文档。所以非常遗憾,无解,因为他下载的gbff文件(NCBI)本身就不记录 CDS 或者说基因结构注释信息。
那咋办?

找基因组网站

按理说,一个基因组文章发表,会对应一个基因组数据库。于是我还是帮忙搜索了下,尽管他并没有提起。果不其然,确实存在。板栗基因组数据库

那么一切似乎就理所应当。基因组数据库总是会提供下载链接的。鼓捣了一会,发现,事情并没有按照我的想法发生。而是


也就是下载不了。我当然不会死心,再看看是否有其他下载链接。因为这个数据库明显就是在共享数据,作者团队不想共享,那么就不会有这个数据库啊。

然而,还是非常遗憾。这是一个FTP链接。估计后台服务崩溃了。
总结一下,下载数据是不可能的了。估计还是得先写个邮件告知下网站维护人员。

基因组浏览器 JBrowse 是可用的

Emmm,原本我是打算就这样吧,反正朋友自己去写邮件就行了。也没啥。但突然看到电脑旁边的一袋板栗,吃起来还是很爽。要不就再试试。于是我点开了数据库网站的 JBrowse。OK,这个是Work的。

情况变得越来越有趣:

  1. 我们知道,JBrowse可以直接下载当前区间的序列

  2. 一个染色体的序列,由所有区间合并而成

OK,一切变得简单。只需要查看后台(Ctrl+F12,如果你是用Chrome),我们就可以知道,JBrowse传递序列的 API 调用方式。

尽管我们看到了可能可以下载这个染色体序列的选项,但灰色,表示,老铁,你下载不了。


没关系,那就直接下载区间。

于是你会看到“Chr1-2.txt”等字样,以及右侧他的获取连接。换句话说....一切过于简单。稍加分析就会发现:每一个 Chr1-X.txt 记录的是 20kb 的序列。问题就好办了。尽管不能下载,染色体长度我们是知道的。


计算一下,即可知道,一共是 4669 个文件。

perl -le 'print qq{system http:///jbrowse/data/json/cm_hby2/seq/a2f/6a9/19/Chr1-$1.txt} for 1..4669'

一个命令,搞定一条染色体。
统计一下结果,发现总长度是

file format type num_seqs sum_len min_len avg_len max_len
Merge.Chr1.fa FASTA DNA 1 93,341,109 93,341,109 93,341,109 93,341,109
比预想少了20kb。这就尴尬了。我拿起了一个板栗,咬开之后,就嚼了起来。哦,难道说?Chr1-0.txt?
于是测试了下

wget http://castaneadb.net/jbrowse/data/json/cm_hby2/seq/a2f/6a9/19/Chr1-0.txt

发现,确实如此。也就是 JBrowse 从 0 开始计数。OK。一切就是这么简单。
其他染色体一样的操作就可以搞定。

获得完整的染色体列表

然后自己折腾就可以了。

注释信息文件,一样的操作。Perfect!

写在后面

Emmm,前前后后,还是花了个把小时....今天内容就这么多了。祝大家科研顺利。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多