无论是Windows,MacOS, Linux桌面的用户,你都可以也会使用。 写在前面伴随基因组测序的普及,越来越多物种的基因组测序项目开展并报道,为科研工作者提供了更为全面的参考序列信息。目前,单纯植物类已公布的基因组,应在400~500个物种之间。这带来了更多的数据,也带来了更多的信息分析挑战。物种基因组公布,往往(至少)会公布两个文件:
对于具有编程基础或熟悉 Linux 操作系统的数据分析人员,往往可以通过编写脚本或使用诸如 gffreads 等命令行工具来进行序列提取【如:所有基因的 CDS 序列】。但对于可以从数据中受益的更多人而言,这并不是一个完美选项。 三年前,TBtools 释放了 GTF/GFF3 Sequences Extract 功能,应为极少见的【至少我没见过】 可实现基于 GTF/GFF3 注释信息 从全基因组序列中提取 指定特征序列集合 的 GUI工具。 【注,其中 Start 摁钮为灰色,即不可用,下文有说明】 常见用途
TBtools 提取出的序列可以保证 ID 完全统一,方便后续任何分析【如基因结构可视化,基因定位在染色体上等等】。当然,TBtools 也提供了 GTF/GFF3 信息整理工具,可方便用于直接整理 ID 重命名的映射文件,随后可用 Fasta Rename 直接进行批量重命名。 以下,大体介绍下两个常见用途(提取 CDS 或 提取 Promoter)的操作姿势 使用到的文件【注:如果文件是.gz .rar .tar.gz 等后缀的压缩文件,请先解压缩再使用】 使用第一步GFF3/GTF文件中存储的序列特征很多,对于 GUI 操作,用户往往需要全面了解文件中可供提取的序列特征,如CDS, Exon等。所以使用这一功能的第一步,即 a) 导入GFF3/GTF文件 b) 点击初始化 可以看到,点击初始化之后,Feature ID等均有了变化 同时还会弹出一个文本对话框,这个对话框,事实上用户辅助用户选择 Feature Tag 和 Feature ID。
可以看到 GFF3 注释文件中,同一个转录本 ATG01010.1 拥有几截CDS。这些 CDS 可以以 Parent 这个 Feature ID 来归组,并组合成 ATG01010.1 的 CDS 全长。事实上,这个文件比较简单,因为 CDS 并没有更多的 Feature ID 可以选择。在其他物种中,常常会出现各种各种的 Feature ID,比如直接是 ID=。 于是,可以开始不同的提取操作了,但是在开始之前,还有一件事情一定不能忘记。 注意事项TBtools 所有 GUI 功能的设计与使用遵从一个基本逻辑:set [I]nput files,set [O]utput files if needed,click [S]tart button,简称 IOS。 所以,下述任何操作,即点击 Start 之前,先设置输出文件。 提取物种所有 CDS 序列【注意,必须先设置 输出文件】 很快,可以看到输出文件。其中包括了物种【注释文件中包括】的所有CDS序列全长。 如果需要 蛋白序列 集合,那么只需要直接用 TBtools 的 批量翻译功能即可。 提取所有转录本的 Promoter 序列Promoter 往往指 UTR上游1~2kb 的区间,这并不绝对,因为顺式作用元件同样可以存在于 Intron 甚至是 Exon 上。目前,大多数物种的基因结构注释信息并不完善,在常见的数据分析中,除少数模式生物,如拟南芥,水稻,人类等,在提及对 Promoter 序列的分析,往往直接使用 翻译起始密码子ATG上游1~2kb的序列。此处,也以同样的方式处理【注,这并不是我本人的生物学认定,仅为演示用】。 于是可以得到, 于是,在所有 CDS 全长的前面,增加了 1000bp 的序列,即上述提及的 Promoter 序列。 很多时候,大家需要的是不包含CDS序列的,纯粹的 Promoter 序列,这个时候,只需要勾选多一个选项即可, 于是得到 于是,对于其他序列特征,如Exon全长,miRNA前体等等,参考以上就可以了。 其他参数详解这个功能基本完善于两三年前,但是参数还是比较丰富。 其中:
补充当然,你可能还有各式各样的需求。 你想要提取GFF3中每个转录本对应的基因ID, 你又想要批量对提取之后的序列进行重命名 你还要想什么?用好搜索框!不用拼命翻菜单。 写在后面昨天半夜醒来,毫无困意。推文写得七七八八,加上前述也听闻 follower 要在他们的软件里面实现类似的功能,那么索性推出,方便作为他们的参考。整体上,这个功能自从推出后,几乎没有更新过。不过我个人的使用频次较高,主要原因在于,越多物种的基因组数据要分析,越多项目需要开展,那么 ID 的一致和统一就越显得重要,而 TBtools 在这块上从设计之初就很在意。 |
|