猩球崛起之苏茜的逆袭

 

Science期刊发表大猩猩全基因组测序研究成果...



本月一篇主要由三代测序长reads组装的大猩猩基因组研究文章,发表于Science期刊。

猩猩是在基因水平上和人类最接近的动物,尤其黑猩猩,它们不仅和人类一样都属于人科动物,其基因组与人类基因组的相同程度达到了99%(话说那1%的影响还真是大呢),据非专业人士分析电影《猩球崛起》中的主角凯撒就是一只黑猩猩,它的部下则包括大猩猩、红猩猩等不同种类。不论是作为人类医学研究或生物机制研究模型,还是用以追溯灵长类动物的进化历史,猩猩都是十分理想的对象,也正因为如此,有不止一种猩猩完成了全基因组测序工作,并且研究结果都发表于国际顶尖杂志。



最近发表的这一篇文章中的大猩猩是西部低地大猩猩,名字叫苏茜(Susie),和2012年的大猩猩卡米拉(Kamilah)为同一种,关于卡米拉进行的分析主要是基于和人类基因组的比较以及起源进化的研究,而围绕苏茜基因组进行的研究方向……也差不多!那么卡米拉姑娘就有疑问了:苏茜完全就是走她的老路啊,为什么还能登上Science期刊,它的逆袭武器是什么?

逆袭武器  一

组装质量
苏茜组装质量高。一个物种基因组的准确测序和组装是研究此物种遗传变异的重要步骤,如果组装后的基因组完整性、准确性有缺陷,我们对于物种生物学问题的研究就会比较困难甚至出现偏差,看上表就可以知道苏茜的组装指标是个大亮点,高质量组装是后期高质量分析的基础。苏茜的外周血DNA样本,利用单分子实时(SMRT)测序进行,测序深度达到74.8×,对于大小约3G的哺乳动物测序深度算比较高,推测价格也比较高……

且不论价格,卡米拉还是有疑问的,SMRT也是有不足的,真的能组装那么完美吗?当然只靠三代是不行的,除了长reads数据,组装同时还结合了另外6只大猩猩基因组的短reads数据来减少插入误差,在组装连续性上有很大提升。

苏茜的基因组组装到底有多好呢?

苏茜组装后的基因组大小为3.1Gb,其中contig N50:9.6Mb,scaffold N50:23.1Mb,大多较短的contigs(<100 Kb)包含着丝粒或端粒卫星序列或折叠的片段重复。相比于之前一版的大猩猩基因组组装(gorGor3),这一组装的组装碎片明显减少(图1、2),连续性相对于最初的大猩猩组装有819倍的提升,相对于最近的一个升级版本的组装有180倍的提升,并且填补了gorGor3的433861个gap中的94%,这一序列很大程度上帮助了基因注释,包括几千个外显子和潜在的调控元件。

1
 
大猩猩基因组示意图
研究还对组装结果的完整性和准确性进行了评估。首先利用测序产生的paired-end数据以及第一个西部低地大猩猩(Kamilah)的组装来评估组装的完整性,之后利用同一个大猩猩的Illumina全基因组测序数据进行了比对,并用另外6个西部低地大猩猩基组对其中的插入错误进行校正,由此构建了一个大猩猩的泛参考基因组(苏茜3),最后评估表明苏茜3基因组每5Kb不超过一个错误。

图2 不同版本大猩猩基因组组装比较
逆袭武器  二

与人类基因作比较


苏茜基因组和人类参考基因组比较。苏茜之前丢失的参考基因组外显子有87%被发现,并且补充了94%不完整的大猩猩基因,和其他非人类灵长类动物基因组相比,苏茜3的组装错误非常少,使其成为仅次于人类的最完整的灵长类基因组(图3)。

比较好的序列连续性能够帮助大猩猩和人类之间结构变异的检测,使其能够达到约50bp的精细程度。两者基因组比较共挖掘出117512个插入缺失,697个倒置,其中超过86%之前没有被确定出来。无论是在基因编码序列中小的结构变异,还是长达几百Kb碱基对的大的、复杂的富含基因的结构变异都鉴定出来(图3C、D)。

图3 基因注释和结构变异
A:不同版本基因组组装错误含量  B:以一个基因(OTOA)为例,新的组装版本补充了完整的外显子序列C:苏茜3和人类基因组中II类MHC(组织相容性复合物)基因位点比对 D:大猩猩中一个复杂结构变异和人类中同源基因的比较。


研究还比较了人类和大猩猩基因组可移动元件的差异。和早期大猩猩基因组组装相比,无论是最长的重复元件或是富含GC的重复元件,有全长的比例都显著增高(图4)。其中PTERV1 是值得注意的一个,它9-10Kb的全长插入是大猩猩特有的变异。

 
图4 可移动元件的分析
左侧:在苏茜3(蓝色)和gorGor3(红色)基因组中PTERV1和SVA的插入长度以及百分比分布
右侧:在gorGor3和苏茜3基因组中两者插入长度的平均数和中位数分布为
逆袭武器  三

重要基因


苏茜可以确定出一些重要基因。例如,MHC(主要组织相容性复合物)在免疫细胞中编码对抗原呈递十分重要的基因,它们的内容和结构在密切相关的灵长类动物中也是有很大差异的。研究发现相对于人类,片段重复在大猩猩基因组中发生了扩张,因此在组装中,大猩猩基因组中有79166个重复碱基对,而人类有53084个。研究确定了大猩猩基因组中三个大的插入片段,横跨大约1Mb的区域,占到这类基因的约14%(图3C),包括几个之前未确定的MHC基因。
逆袭武器  四

修正了群体遗传推论
苏茜还修正了卡米拉对大猩猩的群体遗传推论。群体历史的正确评估对理解气候变化、疾病和人类活动影响大猩猩遗传多样性有重要作用,研究发现和卡米拉的比对结果相比,苏茜的比较发现人类和大猩猩序列比对的分歧并没有那么大,而分歧的大小和富含Alu和GC的区域有很大关联,说明卡米拉组装中的错配、丢失或代表性不足,可能是导致基因差异过大的原因。苏茜的研究利用四只西部低地大猩猩比对到苏茜3和gorGor3的Illumina数据构建了PSMC模型,基于新的组装分析得到的结果表明,西方低地大猩猩最近的一次群体瓶颈可能被低估了约1.5倍,更加突出了利用高质量基因组组装结果进行群体分析的重要性。

所以,尽管之前已经有了黑猩猩、红毛猩猩、倭黑猩猩、山地大猩猩,甚至“亲姐姐”卡米拉(同种类的西部低地大猩猩),苏茜还是凭借高质量的组装实现了逆袭。

参考文献

Gordon D, Huddleston J, Chaisson MJ, et al. Long-read sequence assembly of the gorilla genome. Science, 2016, 352(6281): aae0344.
校园招聘正在进行中


寻“人”之旅——重庆站站

宣讲时间:4月12日  18:00

宣讲地点:西南大学   8教105
我们来了,同学,你准备好了吗?~
点此处了解校招详情


刘亚茹(De novo 事业部)丨文案

王钢丨编辑

配图来源于网络,侵删
为你读文献

为你分享资源

为你分析研究思路

为你提供最前沿的科研动态

学霸,逗逼,科学家,文艺青年同在!



诺禾致源丨提供领先的基因组学解决方案
长按识别二维码,关注诺禾致源


    关注 诺禾致源


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册