基因组的的大小,杂合程度等因素都影响基因组组装的难易程度,目前市场上主流的有以下两种产品
细菌/真菌基因组相对较小,组装难度较低;动植物基因组很大,而且杂合度很高,特别是多倍体植物,这对于测序和分析都是很大的挑战。 对于测序而言,随着三代测序价格降低,对于小型基因组组装,可以直接进行三代测序;对于大型基因组组装,会结合二代和三代测序的数据;除了单纯测序组装外,还出现了Hi-C辅助基因组组装,光学图谱辅助基因组组装等产品。 对于分析而言,pacbio公司整合了许多的组装软件,专门针对三代测序数据进行组装;对于二代测序平台的数据,有很多开源软件可供选择,主流的包括以下几种
soapdenovo是由华大开发的组装工具,主要用于动植物基因组等大型基因组的组装,也可以用于细菌/真菌基因组组装。对于大型基因组装而言,需要的硬件资源特别多,建议内存在150G以上。 该软件目前版本为soapdenovo2, github链接如下
安装过程如下 wget https://github.com/aquaskyline/SOAPdenovo2/archive/r241.tar.gz
tar xzvf r241.tar.gz
cd SOAPdenovo2-r241/
make 编译成功后,会生成如下3个可执行文件
前2个可执行文件用于组装, SOAPdenovo由以下几个子命令构成
前5个子命令对应了soapdenovo组装的5个步骤, soapdenovo需要一个配置文件,配置文件分成两个部分,全局配置和每个文库的配置。全局配置目前只有一个参数 每个文库的配置以 除了输入文件路径外,还包含以下几个参数的设置
配置文件示例如下 max_rd_len=100
[LIB]
avg_ins=200
reverse_seq=0
asm_flags=3
rd_len_cutoff=100
rank=1
q1=fastq1_read_1.fq
q2=fastq1_read_2.fq 软件基本用法如下 SOAPdenovo-63mer all -s config_file -K 63 -R -o graph_prefix 运行成功后,会生成很多文件,其中有两个文件是组装的结果,后缀分别为 更多的参数和用法请参考官方帮助文档。 |
|