分享

系统发生树知多少

 萌小芊 2018-02-09

上一篇文章带大家领略了Vcftools的多样性风采,今天给大家抛的是系统进化树的砖,还请接好!

建树的最基本目的是理清手上一堆数据的相互关系,最简单的做法就是两两比较啦,按某种定义算出距离,然后排序,主要利用的是生物DNA或者蛋白序列信息构建系统进化树,分析生物的进化过程。下面从四个方面介绍进化树,希望能引出不一样的玉

、何为进化树?——知其然

系统树(Phylogenetic Tree)或者进化树(Evolutionary Tree)是描述基因、个体、种群、物种之间系统发生关系假说的树状结构,其核心要素是拓扑结构和分支长度。

进化树的形式

根据拓扑结构展现形式的不同,进化树的常见形式有有根树无根树

有根树

有根树:有一个特殊的根节点,表示所有进化枝的共同祖先(一般是假想原始祖先),从根节点只有唯一路径经进化到达其他任何节点,即有方向性。

无根树

无根树(含外群)

无根树:只表明了节点之间的关系,没有进化方向,其中线段的两个演化方向都有可能,通过引入外群(Outgroup)可在无根树中指派根节点。

二、进化树构建三种方法比较——知其所以然

构建进化树可以是蛋白序列也可以是核酸序列,用类似树状分支的图表示各种(类)生物之间亲缘关系,并推测物种的进化历史。

具体构树过程:

构树三种方法:

1.邻接(邻位)法(NJ, Neighbor-joining):适用于大样本量,快速构建进化树。代表软件MEGA

2.极大似然法(ML, Maximum likelihood):代表软件RAxmlRAxml可间接利用测序数据得到的vcf文件多线程、长时间分析来构建进化树。速度慢于NJ法。

3.贝叶斯法(Bayes):考虑构树参数且模型(默认JC模型)较多,一般要对核酸或蛋白序列做模型预测和各碱基先验频率。蛋白序列可选Prottest软件预测,核酸序列可用Modeltest软件预测。速度慢于ML法。代表软件MrBayes


三、PGDSpider——构树前的格式转换


测序数据经分析得到含SNP位点的vcf文件,.vcf文件经过PGDSpider转化成.phylip格式(需要保存spid日志文件)。

具体转换运行命令行版Raxml[1]

raxmlHPC -f a -x 12345 -T 8 -p 12345 -# 1000 -m GTRGAMMA -s input.phylip -n output

可自行查看软件参数说明[2]

PGDSpider数据格式转换[3]

四、进化树的展示和美化

1. Rggtree[4]——进化树可视化

读入Raxml输出结果RAxML_bipartitionsBranchLabels的文件。

其他ggtree参数说明请看https://github.com/GuangchuangYu/ggtree

1. FigtreeMEGA软件——进化树美化

Figtree软件部分参数列表

Figtree(免费)软件第一排图形参数可以调节形状,翻转(Rotate),树枝加颜色(Colour),高亮区域(Hilight)等;左侧参数可以调节树的形状,大小;还可以决定是否显示样本名(Tip Labels)、节点形状(Note Shapes)、枝长(Branch Labels )以及标尺(Scale bar)等。可直接保存调节后的文件(.tre(勾选第2,4参数),避免下次重新调节等,或保存成pdfPNG,不需调节pdf长宽。

MEGA软件部分参数列表 

MEGA[5]软件与Figtree最大的不同是其可以利用对齐后的Fasta文件通过NJML法构建进化树,功能较Figtree多。感兴趣的小伙伴可以自行尝试相关参数设置。

总结:

对于相似度较低的序列,邻接法(NJ)会出现长枝吸引现象,会干扰进化树的构建,而贝叶斯方法构树太慢;如果序列相似度较高,其实各种方法构出的树结果都不错,模型间的差异也不大,目前大样本数据量的情况下文章普遍使用NJ法构建进化树。当然,如果再考虑DNA突变的方式、有无选择压、区域隔离等因素后,你将会获得群体各亚群间更丰富多样的信息。

参考文献:

1Stamatakis A. RAxML version 8: a tool for phylogenetic analysis and post-analysis of large phylogenies[J]. Bioinformatics, 2014, 30(9):1312.

2https://sco./exelixis/web/software/raxml/

3Lischer, H. E. L and Excoffier, L. PGDSpider: an automated data conversion tool for connecting population genetics and genomics programs[J]. Bioinformatics, 2012, 28(2):298-9.

4Guangchuang Yu, David Smith, Huachen Zhu, Yi Guan, Tommy Tsan-Yuk Lam. ggtree: an R package for visualization and annotation of phylogenetic trees with their covariates and other associated data[J]. Methods in Ecology and Evolution 2017, 8(1):28-36, doi:10.1111/2041-210X.12628

5、http://www./

敲黑板啦!!!2018年生信培训班开课啦,轻松搞定各种分析项。

基因定位生信培训班部分讲师介绍:


黄老师:10年产品研发经验,协助客户发表60多篇文献,基因定位相关文章多次发表在Nature CommunicationPlant JournalScience Report等相关杂志上,影响因子175+,具有3项发明专利。承担公司对内对外培训40+次,累计600+人次,客户反馈良好。主讲《LinuxWindows系统下图谱构建和QTL分析》

史老师:博士,应用植物基因组专业,主攻作物抗病耐逆研究。2009-2017年,就职于中科院上海生命科学研究院,主要从事模式作物重要性状功能基因图位克隆、基因功能验证方面的研究。具有10+年图谱构建、基因定位以及克隆方面的实战经验,参与多篇SCI学术论文的实验和写作,累计影响因子达到30+。负责80+项目的产品服务工作,承担对内对外培训10余次,累计覆盖200+人次,客户反馈良好。主讲《基因定位方案设计》。

具体课程


          动植物基因组事业部    文案|Amy Cui

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多