简介Cap3是一款历史悠久的序列拼接软件,非常适合Sanger序列拼接。此软件于1999年发表于Genome Rsearch杂志,目前Google统计引用5411次(截止2020年9月1日)。 Huang, X. and Madan, A. (1999) CAP3: A DNA sequence assembly program. Genome Res., 9, 868-877. 优秀的软件都会有在线版和本地版两个版本。在线版方便小数据量的用户、或无法拥有服务器和缺少Linux系统软件安装经验的用户,轻松点击鼠标完成拼接。本地版,配合强大的命令行,可以批量完成大数据量的拼接。 在线版使用http://doua./software/cap3 最后更新时间为2014年1月。 可以在对话框中提交如2条及以上要拼接,且存在overlap的fasta格式序列(方向无所谓,软件会自己调整),点击提交(SUBMIT)即可。 结果如下: Contigs:拼接的结果,一般就是你想要的结果; Single sequences:末拼接的序列,如果都拼接成果,此链为空; Assembly details:拼接详细,可以看到序列拼接多序列的方向,比对详细和一致序列,详见下面。 Your sequence file:你刚才提交的序列,可以复制内容保存
查看拼接的细节文件,有助于了解序列方向,拼接结构,碱基一致性等信息。 Number of segment pairs = 6; number of pairwise comparisons = 3 '+' means given segment; '-' means reverse complement
Overlaps Containments No. of Constraints Supporting Overlap
******************* Contig 1 ******************** 27F+ 515+ 1492-
DETAILED DISPLAY OF CONTIGS ******************* Contig 1 ******************** . : . : . : . : . : . : 27F+ TGCAAGTCGAACGGCAGCACGGGAGCAATCCTGGTGGCGAGTGGCGAACGGGTGAGTAAT ____________________________________________________________ consensus TGCAAGTCGAACGGCAGCACGGGAGCAATCCTGGTGGCGAGTGGCGAACGGGTGAGTAAT
. : . : . : . : . : . : 27F+ ACATCGGAACGTGCCCAGTAGTGGGGGATAGCTCGGCGAAAGCCGGATTAATACCGCATA ____________________________________________________________ consensus ACATCGGAACGTGCCCAGTAGTGGGGGATAGCTCGGCGAAAGCCGGATTAATACCGCATA
. : . : . : . : . : . : 27F+ CGACCTACGGGTGAAAGCGGGGGACCGCAAGGCCTCGCGCTATTGGAGCGGCCGATGTCA ____________________________________________________________ consensus CGACCTACGGGTGAAAGCGGGGGACCGCAAGGCCTCGCGCTATTGGAGCGGCCGATGTCA
. : . : . : . : . : . : 27F+ GATTAGCTAGTTGGTGGGGTAAAGGCCTACCAAGGCGACGATCTGTAGCTGGTCTGAGAG ____________________________________________________________ consensus GATTAGCTAGTTGGTGGGGTAAAGGCCTACCAAGGCGACGATCTGTAGCTGGTCTGAGAG
. : . : . : . : . : . : 27F+ GACGACCAGCCACACTGGGACTGAGACACGGCCCAGACTCCTACGGGAGGCAGCAGTGGG ____________________________________________________________ consensus GACGACCAGCCACACTGGGACTGAGACACGGCCCAGACTCCTACGGGAGGCAGCAGTGGG
. : . : . : . : . : . : 27F+ GAATTTTGGACAATGGGGGCAACCCTGATCCAGCCATGCCGCGTGCGGGAAGAAGGCCTT ____________________________________________________________ consensus GAATTTTGGACAATGGGGGCAACCCTGATCCAGCCATGCCGCGTGCGGGAAGAAGGCCTT
. : . : . : . : . : . : 27F+ CGGGTTGTAAACCGCTTTTGTCAGGGAAGAAACGCGCCGAGCTAATACCTCGGTGTAATG ____________________________________________________________ consensus CGGGTTGTAAACCGCTTTTGTCAGGGAAGAAACGCGCCGAGCTAATACCTCGGTGTAATG
. : . : . : . : . : . : 27F+ ACGGTACCTGAAGAATAAGCACCGGCTAACTACGTGCCAGCAGCCGCGGTAATACGTAGG ____________________________________________________________ consensus ACGGTACCTGAAGAATAAGCACCGGCTAACTACGTGCCAGCAGCCGCGGTAATACGTAGG
. : . : . : . : . : . : 27F+ GTGCAAGCGTTAATCGGAATTACTGGGCGTAAAGCGTGCGCAGGCGGCTTTGCAAGACAG 515+ AAGCGTGCGCAGGCGGCTTTGCAAGACAG ____________________________________________________________ consensus GTGCAAGCGTTAATCGGAATTACTGGGCGTAAAGCGTGCGCAGGCGGCTTTGCAAGACAG
. : . : . : . : . : . : 27F+ ATGTGAAATCCCCGGGCTTAACCTGGGAACTGCATTTGTGACTGCATGGCTGGAGTGCGG 515+ ATGTGAAATCCCCGGGCTTAACCTGGGAACTGCATTTGTGACTGCATGGCTGGAGTGCGG ____________________________________________________________ consensus ATGTGAAATCCCCGGGCTTAACCTGGGAACTGCATTTGTGACTGCATGGCTGGAGTGCGG
. : . : . : . : . : . : 27F+ CAGAGGGGGATGGAATTCCGCGTGTAGCAGTGAAATGCGTAGATATGCGGAGGAACACCG 515+ CAGAGGGGGATGGAATTCCGCGTGTAGCAGTGAAATGCGTAGATATGCGGAGGAACACCG 1492- GGGGGATGGAATTCCGCGTGTAGCAGTGAAATGCGTAGATATGCGGAGGAACACCG ____________________________________________________________ consensus CAGAGGGGGATGGAATTCCGCGTGTAGCAGTGAAATGCGTAGATATGCGGAGGAACACCG 本地版使用安装软件安装,可以通过官网下载源代码 http://seq.cs./cap3.html。在Linux, Mac, Windows, Solaris各主流系统版本。 但推荐使用conda安装,会自动安装它及相关的40余个依赖关系 conda install cap3 程序运行命令行cap3 File_of_reads [options] 如:cap3 seq.fa seq.fa中包括要拼接的序列,可以手动制作。也可以使用脚本。 准备输入文件通常测序的结果为.seq文件。我们要将序列合并有一个共同的前缀,如RiceP14C02,使用我写的脚本format_seq2fasta.pl将其合并为fasta格式,脚本在我的 https://github.com/YongxinLiu/Note 中 Perl 文件夹中 如:输入文件保存于seq目录中名字如下: seq/RiceP14C02_1492R.seq seq/RiceP14C02_27F.seq seq/RiceP14C02_515F.seq 合并一条序列的多个文件 file=RiceP14C02 format_seq2fasta.pl -i "seq/${file}_*.seq" -o ${file}.fa 对于另一个拼接的任务,你可以修改file等号后面的即可。想要批量调用,直接使用for循环即可 运行拼接运行cap3,只需提供输入fa文件 cap3 ${file}.fa 结果有如下5个文件 RiceP14C02.fa.cap.ace:原始序列使用信息 RiceP14C02.fa.cap.contigs:拼接序列结果 RiceP14C02.fa.cap.contigs.links:空 RiceP14C02.fa.cap.contigs.qual:质量 RiceP14C02.fa.cap.info:信息 RiceP14C02.fa.cap.singlets:空
由于每个序列名称都叫Contig1,需要改名为序列名 sed -i "1 s/Contig1/${file}/" ${file}.fa ReferenceHuang, X. and Madan, A. (1999) CAP3: A DNA sequence assembly program. Genome Res., 9, 868-877. 在线版 http://doua./software/cap3 本地版 http://seq.cs./cap3.html
|