写在前面早晨,一个老朋友(也是 TBtools 的老用户)与我联系,大体是问了我一个事情gbff转gff3是否可以用TBtools?答案当然是可以,但我不建议。主要原因有二:
TBtools很早就有这个功能,但我没开放。也就这两个原因。但毕竟是老友,帮个小忙理所应当。我拿到他发来的gbff文件,用TBtools转化了一下,发现空文档。所以非常遗憾,无解,因为他下载的gbff文件(NCBI)本身就不记录 CDS 或者说基因结构注释信息。 找基因组网站按理说,一个基因组文章发表,会对应一个基因组数据库。于是我还是帮忙搜索了下,尽管他并没有提起。果不其然,确实存在。板栗基因组数据库 那么一切似乎就理所应当。基因组数据库总是会提供下载链接的。鼓捣了一会,发现,事情并没有按照我的想法发生。而是
然而,还是非常遗憾。这是一个FTP链接。估计后台服务崩溃了。 基因组浏览器 JBrowse 是可用的Emmm,原本我是打算就这样吧,反正朋友自己去写邮件就行了。也没啥。但突然看到电脑旁边的一袋板栗,吃起来还是很爽。要不就再试试。于是我点开了数据库网站的 JBrowse。OK,这个是Work的。 情况变得越来越有趣:
OK,一切变得简单。只需要查看后台(Ctrl+F12,如果你是用Chrome),我们就可以知道,JBrowse传递序列的 API 调用方式。 尽管我们看到了可能可以下载这个染色体序列的选项,但灰色,表示,老铁,你下载不了。
于是你会看到“Chr1-2.txt”等字样,以及右侧他的获取连接。换句话说....一切过于简单。稍加分析就会发现:每一个 Chr1-X.txt 记录的是 20kb 的序列。问题就好办了。尽管不能下载,染色体长度我们是知道的。
perl -le 'print qq{system http:///jbrowse/data/json/cm_hby2/seq/a2f/6a9/19/Chr1-$1.txt} for 1..4669' 一个命令,搞定一条染色体。
wget http://castaneadb.net/jbrowse/data/json/cm_hby2/seq/a2f/6a9/19/Chr1-0.txt 发现,确实如此。也就是 JBrowse 从 0 开始计数。OK。一切就是这么简单。 获得完整的染色体列表然后自己折腾就可以了。 注释信息文件,一样的操作。Perfect! 写在后面Emmm,前前后后,还是花了个把小时....今天内容就这么多了。祝大家科研顺利。 |
|