上一篇文章带大家领略了Vcftools的多样性风采,今天给大家抛的是系统进化树的砖,还请接好! 建树的最基本目的是理清手上一堆数据的相互关系,最简单的做法就是两两比较啦,按某种定义算出距离,然后排序,主要利用的是生物DNA或者蛋白序列信息构建系统进化树,分析生物的进化过程。下面从四个方面介绍进化树,希望能引出不一样的玉。 一、何为进化树?——知其然 系统树(Phylogenetic Tree)或者进化树(Evolutionary Tree)是描述基因、个体、种群、物种之间系统发生关系假说的树状结构,其核心要素是拓扑结构和分支长度。 进化树的形式 根据拓扑结构展现形式的不同,进化树的常见形式有“有根树”和“无根树”。 有根树 有根树:有一个特殊的根节点,表示所有进化枝的共同祖先(一般是假想原始祖先),从根节点只有唯一路径经进化到达其他任何节点,即有方向性。 无根树 无根树(含外群) 无根树:只表明了节点之间的关系,没有进化方向,其中线段的两个演化方向都有可能,通过引入外群(Outgroup)可在无根树中指派根节点。 二、进化树构建三种方法比较——知其所以然 构建进化树可以是蛋白序列也可以是核酸序列,用类似树状分支的图表示各种(类)生物之间亲缘关系,并推测物种的进化历史。 具体构树过程: 构树三种方法: 1.邻接(邻位)法(NJ, Neighbor-joining):适用于大样本量,快速构建进化树。代表软件MEGA。 2.极大似然法(ML, Maximum likelihood):代表软件RAxml,RAxml可间接利用测序数据得到的vcf文件多线程、长时间分析来构建进化树。速度慢于NJ法。 3.贝叶斯法(Bayes):考虑构树参数且模型(默认JC模型)较多,一般要对核酸或蛋白序列做模型预测和各碱基先验频率。蛋白序列可选Prottest软件预测,核酸序列可用Modeltest软件预测。速度更慢于ML法。代表软件MrBayes。 三、PGDSpider——构树前的格式转换 测序数据经分析得到含SNP位点的vcf文件,.vcf文件经过PGDSpider转化成.phylip格式(需要保存spid日志文件)。 具体转换运行命令行版Raxml[1]: raxmlHPC -f a -x 12345 -T 8 -p 12345 -# 1000 -m GTRGAMMA -s input.phylip -n output 可自行查看软件参数说明[2]。 PGDSpider数据格式转换[3] 四、进化树的展示和美化 1. R包ggtree[4]——进化树可视化 读入Raxml输出结果“RAxML_bipartitionsBranchLabels”的文件。 其他ggtree参数说明请看https://github.com/GuangchuangYu/ggtree 1. Figtree和MEGA软件——进化树美化 Figtree软件部分参数列表 Figtree(免费)软件第一排图形参数可以调节形状,翻转(Rotate),树枝加颜色(Colour),高亮区域(Hilight)等;左侧参数可以调节树的形状,大小;还可以决定是否显示样本名(Tip Labels)、节点形状(Note Shapes)、枝长(Branch Labels )以及标尺(Scale bar)等。可直接保存调节后的文件(.tre)(勾选第2,4参数),避免下次重新调节等,或保存成pdf和PNG,不需调节pdf长宽。 MEGA软件部分参数列表 MEGA[5]软件与Figtree最大的不同是其可以利用对齐后的Fasta文件通过NJ和ML法构建进化树,功能较Figtree多。感兴趣的小伙伴可以自行尝试相关参数设置。 总结: 对于相似度较低的序列,邻接法(NJ)会出现长枝吸引现象,会干扰进化树的构建,而贝叶斯方法构树太慢;如果序列相似度较高,其实各种方法构出的树结果都不错,模型间的差异也不大,目前大样本数据量的情况下文章普遍使用NJ法构建进化树。当然,如果再考虑DNA突变的方式、有无选择压、区域隔离等因素后,你将会获得群体各亚群间更丰富多样的信息。 参考文献: 1、Stamatakis A. RAxML version 8: a tool for phylogenetic analysis and post-analysis of large phylogenies[J]. Bioinformatics, 2014, 30(9):1312. 2、https://sco./exelixis/web/software/raxml/ 3、Lischer, H. E. L and Excoffier, L. PGDSpider: an automated data conversion tool for connecting population genetics and genomics programs[J]. Bioinformatics, 2012, 28(2):298-9. 4、Guangchuang Yu, David Smith, Huachen Zhu, Yi Guan, Tommy Tsan-Yuk Lam. ggtree: an R package for visualization and annotation of phylogenetic trees with their covariates and other associated data[J]. Methods in Ecology and Evolution 2017, 8(1):28-36, doi:10.1111/2041-210X.12628 5、http://www./ 敲黑板啦!!!2018年生信培训班开课啦,轻松搞定各种分析项。 基因定位生信培训班部分讲师介绍: 黄老师:10年产品研发经验,协助客户发表60多篇文献,基因定位相关文章多次发表在Nature Communication,Plant Journal,Science Report等相关杂志上,影响因子175+,具有3项发明专利。承担公司对内对外培训40+次,累计600+人次,客户反馈良好。主讲《Linux及Windows系统下图谱构建和QTL分析》 史老师:博士,应用植物基因组专业,主攻作物抗病耐逆研究。2009-2017年,就职于中科院上海生命科学研究院,主要从事模式作物重要性状功能基因图位克隆、基因功能验证方面的研究。具有10+年图谱构建、基因定位以及克隆方面的实战经验,参与多篇SCI学术论文的实验和写作,累计影响因子达到30+。负责80+项目的产品服务工作,承担对内对外培训10余次,累计覆盖200+人次,客户反馈良好。主讲《基因定位方案设计》。 具体课程 动植物基因组事业部 文案|Amy Cui |
|