分享

MegaX进化树构建与分析方法介绍

 微科享 2021-04-19

分子进化遗传学分析(英语:Molecular Evolutionary Genetics Analysis,缩写MEGA)是一个生物信息学软件,可通过分子演化统计学分析建立系统发生树,最初由宾夕法尼亚州立大学的根井正利团队开发。该软件免费,入手难度低,功能强大,适合生物进化研究初学者使用。目前Mega 已经更新到第十版,称为Mega X。下载地址https://www./

Mega X支持多操作平台,本文将介绍一些基本使用方法与操作。

Mega主操作界面如图所示。首先,我们来使用alignment这个功能,来将下载的批量fasta文件整理成一个alignment。

我们这里进行DNA alignment。

这里可以选择从文件中提取sequence, 文件类型可以是fasta,nexus,mas等等。

Mega X常用alignment工具包括ClustalW和MUSCLE。ClustalW实现了迭代算法,因此在较早的步骤中不太可能纠正错误,相对于MUSCLE效果好但分析时间长;而MUSCLE则采用了一种渐进式算法,可以在整个过程中对列进行重新优化,速度很快。如果希望用一种较快的程序进行alignment,笔者建议尝试一下MAFFT。另一种选择是T-Coffee,它比Mafft或MUSCLE慢,但性能好。

Gap penalty这里指的是对两个或更多个序列的比对进行评分的方法。比对序列时,在序列中引入Gap可以使比对算法比无Gap比对能够匹配更多的项。但是,减小Gap对于创建有用的alignment很重要。间隙太多会导致对齐变得毫无意义。Gap penalty用于根据Gap的数量和长度调整比对得分。五种主要类型是constant, linear, affine, convex, andProfile-based。具体分析在这里不赘述,一般软件里可以选用默认,但是如果比对序列多,物种种类多,建议仔细分析一下。

开始分析之后需要一段时间得到比对好的序列。

建树之前,我们可以先用模型分析来找到最适合模型。用法和结果与Jmodeltest相似。这里得到的分析模型,为评分最高的substitution model,在建树时直接选用对应model·。

这里选择GTR+G模型,带有最低BIC分数为最适合model,一般列于第一位。

接下来选择phylogeny里面的ML进行maximum likelihoodtree构建。

ML数一般需要进行bootstrap分析来提高精度,这里我们手动输入1000bootstrap。Bootstrap是一种重新采样分析,涉及从分析中取出字符,重建树并测试是否恢复了相同的节点。这是通过多次(非常频繁地进行100或1000次)迭代来完成的。例如,如果通过抽取一个字符并重新采样树的100次迭代中的95次来恢复同一节点,那么就很好地知道该节点得到了很好的支持(在这种情况下,BS值为0.95或95%)。如果支持率较低,则表明只有几个字符支持该节点,因为从矩阵中随机删除字符会导致该节点的重构不同。那说明该节点可信度不好。

之后选择刚分析得到的最好模型,进行树构建。

经过漫长的分析等待,我们会得到如下结果。

Original tree 显示的是从1-1000个原始树,我们需要的是bootstrap consensus tree, 如下图。


END

微科享,享科学

微科享是微生太旗下专注于学术知识免费分享平台,内容主要包括学术资讯、学术直播以及干货分享。

微科享仅用于学术成果分享与交流,不涉及商业利益。严禁他人将本公众号的内容用于商业运营。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多