技术贴!系统发生树解读

 

实用性也是四颗星~...



Hello,小伙伴们,今天我们继续之前的重测序图形主题:群体结构图形三剑客。为啥称为三剑客?因为这三张图(PCA、树和structure堆叠图)几乎总是在一篇文章中一起出现。

上期唠嗑一下PCA图(戳这里查看~),本期周老师将给大家介绍了系统发生树,先抛出一个问题:它能解释什么生物学问题呢?

系统发生树

颜值:☆☆ ~ ☆☆ ☆☆

实用性:☆☆☆☆

树形图的解读



大家应该注意到了,树图文件的颜值有较大的波动范围。什么原因导致的?软件!同PCA分析类似,树文件也可以认为是一种分析结果的可视化,使用什么软件来绘图会决定树形图的颜值。你的树图可以土得掉渣,也可以浮夸华丽。

例如,下面的图1是使用Mega输出的普通树形图;而图2是使用在线绘图网站iTol(http://itol.embl.de/)绘制的文艺进化树。逼格差距,高下立判,乃们自己感受下。

图1 mega产生的普通树形图
图2 iTol产生的高逼格树形图
系统发生树的解读本身也是相当简单——呈现样本的差异度远近关系。总体说来,树文件中有3个关键信息枝长、自展值、标尺(参考图1)。

枝长

在树形结构中,枝长累积距离越近的样本差异越小,反之差异越大。当然,系统发生数放在DNA类的分析中,就是呈现样本序列间的差异度了。在一般情况下,树形图中样本纵深方向的枝长距离才是与样本的差异度相关的,而与横向的距离无关。例如图1中,序列WP_012039132.1和KDP92253.1的差异度(距离)应该等于d1+d2。而序列KDP92253.1与序列WP_015491041.1 的差异度(距离)应该等于d2+d3+d4,而与树的横向距离无关。

自展值

另外,树形图上的分支节点上往往会有数字(如图1中分支节点蓝圈中的数字)。这个数值叫Bootstrap值,即自展值,是用来检验你所计算的进化树分支可信度的。简单地讲,就是把序列的位点都重排,重排后的序列再用相同的办法构树,如果原来树的分枝在重排后构的树中也出现了,就给这个分枝记为重现一次。这样经过打乱重排给定的次数后(一般至少1000次),这个分支被重现的次数占重排次数的百分比就是自展值。通常认为自展值大于75(即75%)才认为这个分支是可靠的。如果自展值过低,说明这个树的分枝关系并不可靠!往往会有老师问:我们的数据绘制的某些分支自展示太低,是什么原因,该怎么办?

自展值低,从表面上的解读就是:进化树无法将这个节点周边的若干条序列准确区分开。那么是什么原因导致无法区分呢?其原因无非两种:要么就是这几条序列太相似,要么就是这几条序列差异太大。

如果低自展值的节点位于树的枝末端,一般是由于若干序列太相似了,导致无法区分你我它。在这种情况下,一般需要换用其他序列或使用分辨率更高的技术对样本进行检测和分类。在2010年一篇研究瓶草蚊进化关系的文章中[1],如果仅仅使用线粒体COI基因画树,则树中的不少分枝的自展示都很低(图3A)。这由于这波蚊子才分化2万年,实在太相似了,使用单一基因根本区分不开。但换用分辨率更好的RAD测序后,利用上万个SNP标记重新构建的树,大部分分枝的自展值都极佳,实现了对不同居群进化关系的准确区分。

图3 蚊子的进化关系分类(备注:图中使用3种自展值相关的估算方法)
如果自展值低的节点位于树靠近根部的位置,那么就是由于这个分枝周边的序列相似度实在太低了。甲乙丙丁序列,各自间差异都很大,面对4个路人,进化树自然分不清谁是亲戚了,只能蒙一个,结果自然不可靠。面对这种情况,只能适当删掉一些不靠谱的序列,或许删掉多条序列中保守性差异的区域。

当然,以上说到的两种导致自展值偏低的情况,在重测序数据中都不会出现。因为重测序数据分辨率足够高,而且所有个体本身属于同一个种,不会出现序列差异太大的情况。

标尺

图1中绿圈内是树的标尺。经常会有老师会问,这个是否代表分化时间?其实不是。进化树本身只是代表序列的差异程度,所以这个标尺的数值通常代表序列的差异度。只有我们知道这个物种的序列突变速率,或者已知两个物种的分化时间,才可能将序列的差异度换算为分化时间。

图形的绘制



重测序数据绘制树一般直接使用SNP位点画树(因为使用全基因组序列计算量太大,且没有必要),这一点和使用单一基因画树不同(一般使用全长序列)。而且因为位点多,运算量大,所以一般使用计算效率最高的NJ法画树。

说到树形图的绘制,大家最熟悉的当然是界面最为友好的mega。当然,另一款使用广泛的软件是phylip(以及改进型:Phylipnew),以及我同事推荐的另一款软件treebest看起来也不错(这款软件居然也有window用户界面版本)。phylip的输出结果可以导入mega中可视化。但mega的树形图还是比较丑。如果要美化的话,可以将mega的树形图文件(*.nwk)保存后,导入了在线进化树绘制网站iTol(http://itol.embl.de/),可以绘制出各种高逼格的进化树。不过如何绘制进化树不是现在我们要讨论的的内容,后期的其他专题课堂我们会专门讲解这个内容。

现在是周老师卖萌时间:今天居然连广告都没有,带着失落的心情继续写structure图的介绍了。

参考文献:

【1】EmersonK J, Merz C R, Catchen J M, et al. Resolving postglacial phylogeography using high-throughputsequencing[J]. Proceedings of the national academy of sciences, 2010, 107(37):16196-16200.

大家要给周老师点鼓励哇~ 转发到朋友圈让更多人看到吧~

为了满足大家的需求,现在小编来收集一下大家的意见,想看什么内容的微信文章马上参与投票!到下周五(5月13日)投票都有效,不要太感动啦,快投票吧~





    关注 基迪奥生物


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册