1. MAFFT简介MAFFT是一个高效且准确的多序列比对工具,它通过采用快速和迭代的算法来在速度和比对质量之间取得平衡。它提供的多种比对算法选项可以根据序列的特点和长度进行选择,以在不同场景下优化比对准确性和速度。有文献报道:比对速度(Muscle>MAFFT>ClustalW>T-Coffee),比对准确性(MAFFT>Muscle>T-Coffee>ClustalW)。这使得它成为处理大规模序列数据时的理想选择。 2. 插件用法第一步:Input file? 输入需要比对的文件路径,要求为 FASTA 格式。(或者黏贴多条Fasta序列) 第二步:Strategy? (1)参数介绍: --auto 如果在比对时,不知道如何选取合适的算法,直接在Strategy选择--auto,软件会根据输入序列的特征,自动选择合适的算法(此时其他参数设置无效)。 --globalpair 使用Needleman-Wunsch算法执行全局比对策略,即比对整个序列而不考虑局部相似性。 --localpair 使用Smith-Waterman算法执行局部比对策略,即仅比对序列中的局部相似片段,适用于较长序列或存在结构变异的序列之间的比对。 --genafpair 使用了Genafpair算法执行亲缘比对策略,即根据序列的亲缘关系进行比对,适用于相对较近的物种之间的比对。 Maxiterate 设置为一个正整数,表示进行迭代细化的次数。较大的迭代次数可能会导致更准确的比对结果,但也会增加计算时间。官方软件默认为0,在这里准确性优先默认修改为1000。 Retree 设置为一个正整数,表示重新生成索引时使用的树的数量。 Threads 设置运行线程数,默认为2个 (2)官方推荐的几种比对策略 <1>准确度优先包括G-INS-I; L-INS-I; E-INS-I G-INS-I :适合于序列长度相似的多序列比对。#序列条数 < 200, 序列长度 ≤2000 aa/nt。 参数设置:--globalpair --maxiterate 1000 其他默认 L-INS-I :最准确的方法。#序列条数 < 200,且序列长度 ≤ 2000 aa/nt 的比对。 参数设置:--localpair --maxiterate 1000 其他默认 E-INS-I :适合序列中包含较大的非匹配区域。#序列条数 < 200, 序列长度 ≤ 2000 aa/nt。 参数设置:--genafpair --maxiterate 1000 其他默认 <2>速度优选的方法:FFT-NS-1; FFT-NS-2 FFT-NS-1:减少迭代次数,最大迭代次数减为2。 参数设置:--retree 1 --maxiterate 2 其他默认 FFT-NS-2 :最大迭代次数减为0。 参数设置:--retree 2 --maxiterate 0 其他默认 第三步:output format? Output Order 输出序列顺序,这里提供了2种. --inputorder和输入文件序列顺序一致;--reorder根据比对情况重新生成新的排序。 Output Format 输出格式也可以按照自己的需要选择,提供了fasta,clustal和phylipout格式。 官方默认为fasta格式,可以修改为常用的多序列比对结果文件格式clustal或phylip。 比对结果: fasta格式: clusta格式: phylip格式: 3. 打包过程第1步:官网下载windows安装包 https://mafft./alignment/software/ 第2步:解压后发现提供了mafft.bat脚本,几乎不需要自己动手。 第3步:整理了mafft常用的参数,主要包括Strategy比对算法的相关参数和output format输出结果文件的格式相关参数。决定提供官方推荐几种比对策略涉及的参数供选择,包括Strategy;Maxiterate;Retree;outputorder;outputformat;Threads等。 第4步:对于一些软件内置默认的参数但实际需要进行选择的参数附值。例如软件默认输出格式为fasta格式但命令行版本没有提供参数,但实际上在插件中需要进行选择,故在源文件添加了--fastaout参数。
第5步:查看TBtools 插件开发入门完全指南,稍微设置一下界面排版,找朋友测试一下,打包成功! 发送给CJ,上传到 TBtools 插件商店 |
|