第三代测序技术的加入,大大提升了节节麦基因组组装质量

 

复杂基因组组装升级的优质解决策略...





节节麦(Aegilops tauschii),又名粗山羊草,是现代普通栽培小麦(异源六倍体)的D基因组供体种,其基因组中抗病相关基因(如NBS-LRR基因等)、抗非生物应激反应的基因数量都发生显著扩张,增强了其抗病性、抗逆性与适应性。D基因组的加入,使小麦的抗病性、适应性与品质得到大大改良,推动小麦成为世界上种植区域最广的第一大粮食作物。


现代栽培小麦异源六倍体基因组形成示意图
因此获得节节麦基因组参考序列,将为研究小麦驯化史提供一个全新的视角,并为多倍体小麦基因组的测序分析提供了二倍体基因组参照序列。注释出的基因信息和分子标记亦有助于加速小麦的遗传改良,对保障粮食安全和农业可持续发展具有重要作用。

下面组学君为大家分析两篇通过高通量测序技术获得节节麦参考基因组的论文,比较技术的进步带来的组装指标的提升。
1


2013年,在国家863计划的支持下,中国农业科学院作物科学研究所采用Illmina (GAⅡ、Hiseq2000)和Roche 454相结合的方法,在国际上率先完成了小麦D基因组供体种——节节麦基因组草图的绘制,研究成果发表在Nature(J.Z. Jia, et al., 2013)。



测序策略

建立45个插入片段在200bp-20kb之间的文库,使用Illumina(GAⅡ和 Hiseq 2000)测398G数据,测序深度 90×,SOAP denovo 1.05 组装。

使用Roche454 测18.4Gb数据,将Illumina 数据比对到较长的Roche454数据,混合组装。组装结果

Contig N50=4,512bp;Scaffold N50=57.6kb。

其中组装的序列信息中,65.9%含有不同转座子家族。
2
来自约翰·霍普金斯大学医学院等机构的研究人员采用PacBio长读长提升大型高度重复的节节麦基因组质量,将Illumina短读长和PacBio 长读长数据相结合,建立了一个混合拼接组装流程,研究成果2016年发表在bioRxiv(A.V. Zimin, et al., 2016)。
测序策略

Illumina HiSeq 2500: 200bp paired-end 测序深度:93.2×

Illumina MiSeq: 250bp paired-end 测序深度:83.6×

PacBio SMRT 测序,P6-C4,测序深度:38.5×


组装流程如上图所示,Illumina产生的short reads (raw data)经过处理形成super-reads(绿线),丢弃掉不匹配的部分(Poorly aligning super-reads),剩下的super-read以PacBio reads为模板合并成为黄色的pre-mega-reads,最终拼接成mega-reads。之后使用CABOG wgs-8.3rc2组装。
组装结果

Contig N50=486,807 bp;Scaffold N50=521,653 bp。

与2013年的Contig N50=4,512 bp组装结果相较,目前的Contig N50=486,807 bp有了约100倍的提升。

文中还对PacBio及Illumina数据混合组装、55× PacBio数据组装、Illumina数据组装(插入片段文库3-10kb)的指标进行比较(如下表),混合组装得到的Contig N50 约为使用长插入片段Illumina数据所得结果的30倍。



在节节麦和其亲缘物种异源六倍体小麦及其他植物中,大部分重复序列是由转座子组成,它们以上千个几乎相同的拷贝形式存在于整个基因组中,长度通常为2-3Kb,研究中通过PacBio测序得到的平均读长为8520bp,能轻松跨越大多数转座子,大大提升节节麦基因组组装指标,获得了更完整、更准确的基因组信息。

未来组作为国内首家第三代测序服务公司,专注于第三代测序技术的推广和应用,已有大量应用三代测序技术来升级大基因组组装的项目经验。对于已有短读长测序,但组装尚不完善的基因组,组学君建议根据基因组复杂程度,采用一定的三代数据和组装策略来升级和优化基因组。

聊天界面回复“节节麦”,节节麦文献即可到手!

参考文献1. J.Z. Jia, et al.,The Aegilops tauschii draft genome sequence reveals a gene repertoire for wheat adaptation. Nature (2013).

2. A.V. Zimin, et al., Hybrid assembly of the large and highly repetitive genome of Aegilops tauschii, a progenitor of bread wheat, with the mega-reads algorithm. BioRxiv (preprint first posted online 2016).

本文系未来组原创,欢迎个人转发分享。其他任何媒体、网站如需转载,须在正文前注明来源未来组。

长按二维码 加入技术交流群


武汉未来组生物科技有限公司(Nextomics Biosciences)成立于2011年8月8日,总部位于武汉光谷生物城,目前在北京生命科学园和美国纽约设立有分支机构,是中国首家第三代测序服务公司。

武汉未来组通过三代测序生物信息学工具和流程的开发,解决了复杂基因组组装、微生物完成图组装、全长转录组分析、人类基因组变异检测等领域的技术瓶颈,推动了基因组学研究的升级换代,目前已经完成数百个三代测序科研项目,发表了多篇三代测序的科学文献。因为专注于三代测序技术开发和应用推广,武汉未来组已经成为中国三代测序技术应用的第一品牌。


    关注 Nextomics


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册