怎样让基因组重登Science? —未来组解析比较基因组学研究新思路

 

你的基因组研究目光还停留在Nature Genetics级别吗?最近有没有被Science级别基因组学文章霸屏呢?组学君带你解读Science的基因组文章,解析比较基因组学新思路。...



你的基因组研究目光还停留在Nature Genetics级别吗?最近有没有被Science级别基因组学文章霸屏呢?甘于当奥特man的学者不是好科学家,组学君带你解读Science的基因组文章,解析比较基因组学新思路。

本次研究从大猩猩外周血中提取基因组DNA,PacBio SMRT平台对大猩猩基因组进行了测序,深度74.8X,测序试剂是P6C4,文库插入片段20kb。组装软件是Falcon (v.0.3.0)和 Quiver ,组装得到了3.1 Gb 的大猩猩基因组序列,命名为Susie3,Contig N50达到9.6 Mbp,成为了继人类基因组后,基因组序列最完整的物种。

组装结果评估与人类基因组(GRCh38)序列比较评估组装结果

与人类基因组(GRCh38)序列的比对发现,98.9%的常染色体由1854个contig组成。序列分析还发现,绝大部分的小的contig(小于100kb)组成了着丝粒、端粒的卫星序列或片段化的反向重复序列,见Figure 1。小片段duplication序列含量高的区域,小的contig数量也比较多。


Figure 1 与人类基因组比较情况
与其它版本的大猩猩基因组(gorGor3)比较评估组装结果与之前的大猩猩基因组gorGor3比较起来,Contig数目从433861个减少到16073,减少了96%。Contig N50 提升了819倍,见Figure 2。填补了之前94%的gap区域,见Figure 3,相当于染色体164M的序列,这对编码区域以及调节区域的注释具有极大的促进作用。


Figure 2 不同版本的大猩猩基因组Contig 分布统计
对gorGor3的gap区域仔细分析发现,SINE序列富集了三倍(Alushort interspersed nuclear element repeats),这说明这些高G-C含量区域在之前的组装中是一个大难题。gap的大小与重复序列的含量有正相关性。


Figure 3 Gap填充情况统计
比较基因组分析与人类基因组序列比较分析将Susie3与 human(GRCh38)比较分析,鉴定到了117512个InDel,697个inversion variants。86%的多样性在之前的基因组中没有被发现。

最后鉴别出了145个(76deletions and 69 insertions)变异为大猩猩基因组特有,涉及到110个基因。这些基因与感官知觉、角蛋白合成、白介素和细胞激素分泌、再合成、免疫、生长、跨膜信号、核酸结合蛋白等有关。

在基于最近的人类基因组序列注释中,还发现了一些变异与潜在的调节元件有关。有一些是位于编码框内的InDel,导致了氨基酸的增加和减少,这些变异产生的结果还需要进一步的分析,在探索不同物种间的基因差异具有参考作用。

MHC位点分析本次研究对人(GRCh37)与组装的大猩猩基因组的组织相容性位点(MHC)进行了分析。在大猩猩基因组的MHC位点中,含有大量的片段化的duplication,大约占10%,在人类基因组中这一比率大约为8%。鉴定出了3个大的来自大猩猩的Insertion,以及之前的组装没有分析到的MHC基因。在gorGor3基因组序列中,MHC区域含有168个gap,但是在Susie3基因组中,全部被组装出来。

人与大猩猩的两个版本的基因组差异比较最后将人基因组分别与大猩猩的两个版本的基因组进行比较分析,发现人基因组GRCh38与Susie3的divergence为1.6%,GRCh38与gorGor3的divergence为1.65%。但是这两组divergence的差异并不是随机分布的。进一步分析发现,一些特异性的基因富集区域和染色体(如染色体19和22)具有特别大的差异性。进这些差异性与区域内的Alu(short interspersed nuclear element repeats) 和G+C 含量具有正相关性,见Figure4。这说明这些区域额外的divergence很有可能是由于Illumina 的错误组装引入的。



Figure 4 基因组差异性与区域内的Alu 含量具有正相关性
Heterozygosity差异比较分析通过Illuminareads与Susie3和gorGor3这两个基因组进行比对,发现在gorGor3有更高的heterozygosity,差异性最大的是X染色体。为了验证这些差异是否由Illumina的short-reads组装不完全导致的,选取除了来自雌性大猩猩的相区域的reads,再与两个基因组进行比对,发现来自gorGor3的heterozygosity区域,只有87%在Susie3中被找到,这些“lost”heterozygous所在的区域Illumina覆盖深度都很低,这说明这些基于二代错误组装的基因组能够导致heterozygous的增加。

参考文献:David Gordon et al., Long-readsequence assembly of the gorilla genome. SCIENCE (2016)

关于武汉未来组

武汉未来组生物科技有限公司(Nextomics Biosciences)成立于2011年8月8日,总部位于武汉光谷生物城,目前在北京生命科学园和美国洛杉矶设立有分支机构,是中国首家第三代测序服务公司。

武汉未来组通过三代测序生物信息学工具和流程的开发,解决了复杂基因组组装、微生物完成图组装、全长转录组分析、人类基因组变异检测等领域的技术瓶颈,推动了基因组学研究的升级换代,目前已经完成数百个三代测序科研项目,发表了多篇三代测序的科学文献。因为专注于三代测序技术开发和应用推广,武汉未来组已经成为中国三代测序技术应用的领导者。




    关注 Nextomics


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册