“系统进化树”之必备技能get√

 

提起群体进化分析,大家一定会想到“图形三剑客”:系统进化树、PCA和Structure堆叠图。相较其他二者,系统进化树常常给人一种简约又实用的感觉..........





摘要

[/b]

提起群体进化分析,大家一定会想到“图形三剑客”:系统进化树、PCA和Structure堆叠图。相较其他二者,系统进化树常常给人一种简约又实用的感觉,几乎在每篇群体进化分析的高分文章中都会出现它的身影,今天小编就为大家揭开进化树的神秘面纱。

系统进化树构建思路解析

系统进化树又称演化树(evolutionary tree),是展示具有共同祖先的各物种间演化关系的树,是一种亲缘分支分类方法(cladogram)。通常树文件中有3个关键信息:枝长、自展值(bootstrap)、标尺。在树中,每个节点代表其各分支的最近共同祖先,而节点间的线段长度(枝长)对应演化距离(如估计的演化时间);树形图上的分支节点上往往会有数字,这个数值即自展值,是用来检验你所计算的进化树分支可信度的;标尺一般位于图示的左下角或右下角,数值通常代表序列的差异度。


图1 进化树构建思路解析
上图很好的反映了进化树构建的依据:

a. 随着物种的进化演绎,进化水平越相近的物种它们的序列越接近;

b. 如果是由同一个物种演化而来,分化来的不同物种会保留共同祖先的印记,这是区别于其他祖先的。

系统进化树分有根(rooted)树和无根(unrooted)树。有根树(归于一个节点)反映了树上物种或基因的进化时间顺序,而无根树只反映分类单元之间的距离而不涉及谁是谁的祖先问题。

常见的进化树构建方法比较
表1 常见的几种进化树对比
名称
软件推荐
基本原则
关系适用
NJ (Neighbor-Joining,
邻接法)
PHPLIP或MEGA
通过距离最近或相邻的成对分类单位来使系统树的总距离达到最小
近源、远缘
ML (Maximum likelihood,最大似然法)
PHYML(最快)、PAUP、PHYLIP、Tree-puzzle
将获得的每一个拓扑结构的似然率都作为最大值,然后挑出其中似然率最大的拓扑结构作为最优树
近源、远缘
MP (Maximum parsimony,最大简约法)
PAUP或MEGA
对所有可能的拓扑结构进行计算,将所需替代数最小的拓扑结构作为最优树
近源,一般不用于远缘
Bayesian (贝叶斯推断法)
MrBayes、MAC5
基于进化模型的统计推论法,可通过后验概率直观反映各分支的可靠性
近源、远缘


 

NJ邻接法通过确定距离最近或相邻的成对分类单位来使系统树的总距离达到最小。相邻是指两个分类单位在某一无根分叉树中仅通过一个节点(Node)相连。通过循序地将相邻点合并成新的点,就可以建立一个相应的拓扑树。重测序数据绘制树一般直接使用SNP位点画树(因为使用全基因组序列计算量太大,且没有必要),这一点和使用单一基因画树不同(一般使用全长序列)。而且因为位点多,运算量大,所以一般使用计算效率最高的NJ法画树。

优点:重建的树相对准确,假设少,计算速度快。

缺点:同等对待序列上的所有位点,且所分析序列的进化距离不能太大。

常见构图如下:

图2基于邻接法构建的系统进化树
ML最大似然法将每个位点所有可能出现的残基替换概率进行累加,产生特定位点的似然值,对所有可能的系统发育树都计算似然函数,似然函数值最大的那棵树即为最可能的系统发育树。

优点:在进化模型确定的情况下,ML法是与进化事实吻合最好的建树算法。

缺点:计算强度非常大,极为耗时。

常见构图如下:


图3 基于最大似然法构建的系统进化树
近来,在一些重测序文章中涉及物种迁移、基因交流分析时也常用到最大似然法建树,结果如下图所示(软件:Treemix):


图4 基于最大似然法进行基因交流分析
MP最大简约法是一种常使用于系统发生学分析的方法,根据离散型性状包括形态学性状和分子序列(DNA,蛋白质等)的变异程度,构建生物的系统发育树,并分析生物物种之间的演化关系。理论基础是遵循奥卡姆(Ockham)哲学原则:解释一个过程的最好理论是所需假设数目最少的那一个。对所有可能的拓扑结构进行计算,并计算出所需替代数最小的那个拓扑结构,作为最优树。

优点:不需要引入氨基酸替换模型。对于分析某些特殊的分子数据,如插入、缺失等序列有用。在分析的序列位点上没有回复突变或平行突变,且被检验的序列位点数很大的时候,最大简约法能够推导获得一个很好的进化树。

缺点:当物种之间确实存在太多的回复突变和平行突变的时候(套路很多)还真搞不定。

 

系统进化树查看与美化

系统进化树查看与美化工具有TreeView、Figtree等。


图5 Figtree软件界面


图6 采用相关软件美化后的图形示例


结论

如果序列的相似性较高,各种方法都会得到不错的结果,模型间的差别也不大。一般推荐用两种不同的方法构建进化树,如果所得到的进化树类似,则结果较为可靠。一般自展值(bootstrap)均大于75(即75%)才认为构建的进化树较为可靠。如果自展值太低,则有可能进化树的拓扑结构有错误,进化树不可靠。

一般情况下,若有合适的分子进化模型可供选择,用ML的效果较好。近源物种序列,通常使用MP法。对于NJ和ML,是需要选择模型的。对于蛋白质以及DNA序列,二者模型的选择是不同的,对于蛋白质的序列,一般选择泊松修正(Poisson Correction)这一模型。而对于核酸序列,一般选择Kimura-2参数(Kimura 2-parameter)模型。

在实际中,只要方法、模型合理,建出的树都有意义,可根据具体情况选择自己认为好的一个!

推荐阅读

1. Yang Z, Rannala B. Molecular phylogenetics: principles and practice. Nature Reviews. Genetics 2012, 13: 308-314.

2. 黄原:《分子系统发育学》,科学出版社,2012.

参考文献

[1] Jeong H, Andrews KR, Kim K, et al. Whole genome sequencing of Gyeongbuk Araucana, a newly developed blue-egg laying chicken breed, reveals its origin and genetic characteristics[J]. Scientific Reports, 2016, 6: 26484.

[2] Libradoa P, Sarkissiana CD, Erminia L, et al. Tracking the origins of Yakutian horses and the genetic basis for their fast adaptation to subarctic environments[J]. PNAS, 2015, 112(50): 6889–6897.

[3] Takahashi T, Moreno E. A RAD-based phylogenetics for Orestias fishes from Lake Titicaca[J]. Molecular Phylogenetics and Evolution, 2015, 93: 307-317.

 

 
更多资讯请关注壹基因!


    关注 壹基因


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册