分享

序列提取 - 《-零命令行-生信下游数据分析》- 第一弹

 生信药丸 2021-07-26

写在前面

《-零命令行-生信下游数据分析》的第一帖主题,定为序列提取。因为序列提取,可以说是目前最常见的生信下游数据分析需求,其主要见于场景:

1.物种基因组已公布,但没有对应的数据库,而我只是需要某个染色体的一个区段

2.手上有无参考转录组组装结果,需要从其中提取出一些我感兴趣的基因的序列,如某几个差异表达基因

场景有很多。而目的只有一个,即省时省事地得到我要的序列。本篇推文,可以让任何人在短时间内掌握并完成自己需要的序列提取,几乎没有学习成本。

准备数据

  1. 序列文件,Fasta格式(任何Fasta格式的序列文件,如genome.fa, unigenes.fa, proteins.fa, cds.fa....)

  2. 序列ID列表,或带需要的区间坐标信息 (普通的tab分隔的文本文件)


    如果是要提取某个序列的某个区段,那么可能ID后面加上区段信息,如果需要对提取出来的区段命名,则在ID前面添加信息

开始提取

1.首先打开TBtools,并选择对应的工具Amazing Fasta Extractor

2.设置序列库文件


一般TBtools提供两种数据输入方式 ,推荐直接使用鼠标拖拽


3. 提取序列

如果一次提取少量序列,只是快速使用,那么无需设置输出文件,直接勾选,使提取的序列显示在对话框,用于文本复制与黏贴


如果序列较多,或者要直接保存输出到文件中,那么可以设置一个输出文件

同样的方式 ,如果是要提取某个序列区段

4. 其他需求
关于序列提取,整体上,以上的操作应该是已经满足了大部分人的需求,当然还有其他需求,剩下的几个选项,可自行摸索

或者,建议加入TBtools使用交流群- QQ群,与其他在科研工作中使用TBtools的朋友交流

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多