搜索

分享

QQ空间 QQ好友新浪微博微信

【原】Tips | 提供JBrowse浏览器 = 公开了基因组！

生信药丸 2021-07-26

展开全文

写在前面

早晨，一个老朋友（也是 TBtools 的老用户）与我联系，大体是问了我一个事情gbff转gff3是否可以用TBtools？答案当然是可以，但我不建议。主要原因有二：

使用gbff，往往是基因结构注释很不完善
gbff格式常常有变化，不一定有CDS等注释，可能只是一个记录信息

TBtools很早就有这个功能，但我没开放。也就这两个原因。但毕竟是老友，帮个小忙理所应当。我拿到他发来的gbff文件，用TBtools转化了一下，发现空文档。所以非常遗憾，无解，因为他下载的gbff文件（NCBI）本身就不记录 CDS 或者说基因结构注释信息。
那咋办？

找基因组网站

按理说，一个基因组文章发表，会对应一个基因组数据库。于是我还是帮忙搜索了下，尽管他并没有提起。果不其然，确实存在。板栗基因组数据库

那么一切似乎就理所应当。基因组数据库总是会提供下载链接的。鼓捣了一会，发现，事情并没有按照我的想法发生。而是

也就是下载不了。我当然不会死心，再看看是否有其他下载链接。因为这个数据库明显就是在共享数据，作者团队不想共享，那么就不会有这个数据库啊。

然而，还是非常遗憾。这是一个FTP链接。估计后台服务崩溃了。
总结一下，下载数据是不可能的了。估计还是得先写个邮件告知下网站维护人员。

基因组浏览器 JBrowse 是可用的

Emmm，原本我是打算就这样吧，反正朋友自己去写邮件就行了。也没啥。但突然看到电脑旁边的一袋板栗，吃起来还是很爽。要不就再试试。于是我点开了数据库网站的 JBrowse。OK，这个是Work的。

情况变得越来越有趣：

我们知道，JBrowse可以直接下载当前区间的序列
一个染色体的序列，由所有区间合并而成

OK，一切变得简单。只需要查看后台（Ctrl+F12，如果你是用Chrome），我们就可以知道，JBrowse传递序列的 API 调用方式。

尽管我们看到了可能可以下载这个染色体序列的选项，但灰色，表示，老铁，你下载不了。

没关系，那就直接下载区间。

于是你会看到“Chr1-2.txt”等字样，以及右侧他的获取连接。换句话说....一切过于简单。稍加分析就会发现：每一个 Chr1-X.txt 记录的是 20kb 的序列。问题就好办了。尽管不能下载，染色体长度我们是知道的。

计算一下，即可知道，一共是 4669 个文件。

perl -le 'print qq{system http:///jbrowse/data/json/cm_hby2/seq/a2f/6a9/19/Chr1-$1.txt} for 1..4669'

一个命令，搞定一条染色体。
统计一下结果，发现总长度是

file format type num_seqs sum_len min_len avg_len max_len
Merge.Chr1.fa FASTA DNA 1 93,341,109 93,341,109 93,341,109 93,341,109
比预想少了20kb。这就尴尬了。我拿起了一个板栗，咬开之后，就嚼了起来。哦，难道说？Chr1-0.txt？
于是测试了下

wget http://castaneadb.net/jbrowse/data/json/cm_hby2/seq/a2f/6a9/19/Chr1-0.txt

发现，确实如此。也就是 JBrowse 从 0 开始计数。OK。一切就是这么简单。
其他染色体一样的操作就可以搞定。

获得完整的染色体列表

然后自己折腾就可以了。

注释信息文件，一样的操作。Perfect！

写在后面

Emmm，前前后后，还是花了个把小时....今天内容就这么多了。祝大家科研顺利。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：生信药丸 > 《待分类》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

生信药丸

关注对话

TA的最新馆藏

随笔 | 你站在桥上看风景，看风景人在楼上看你。
Admixture群体结构可视化 + Group！
CJ荐书 | 一小时学完《植物大数据技术与应用》
分享 | ATAC-Seq 分析流程
重新上线 | 基因家族序列 Pfam 扫描与可视化
用户投稿 | 点点点！TBtools 完成基因家族论文复现

喜欢该文的人也喜欢更多

热门阅读换一换