三代测序技术对真核生物基因组组装的作用----红豆基因组

 

二代测序对于无参考基因组的物种来讲是一个高性价比的测序技术。但基因组序列未知的物种占绝大多数。本研究利用三代测序技术,重新构建红豆(Vignaangularis)高质量的基因组序列图谱。...



摘要

二代测序对于无参考基因组的物种来讲是一个高性价比的测序技术,但基因组序列未知的物种占绝大多数。本研究利用三代测序技术,重新构建红豆(Vigna angularis)高质量的基因组序列图谱。三代测序技术较二代测序技术的conting提升100倍的同时,gap数减少了100倍。细致化的二三代技术间的相互比较可以明确地看出二代测序技术组装版本的基因缺失和片段化。本文采用三代测序技术组装出86%的红豆基因列,尽管仍需二代数据支持,但三代测序的组装版本几乎接近了真核生物基因组的全部组装。

研究背景


基因组测序耗费巨大的人力和财力,但二代测序不能对复杂基因组的解决能力有限。三代基因组的平均读长为10Kb,对于二倍体人的基因组组装指标N50已达4.3Mb。对于无参考基因组物种的de novo 组装,获得高密度的遗传图谱也非常重要,在已有基因组测序的物种中,仅有30%-60%的物种将conting/scaffold锚定至染色体。
研究目的
本文选用东亚第二大谷类作物--红豆(Vigna angularis)为研究材料,红豆已大面积种质以保证其质量,免受低温和疾病胁迫。,但已报到的基因组序列只组装出基因组的70%,50%锚定至染色体,其限制了红豆相关性的分子生物学研究。采用三代测序技术构建高质量基因组序列图谱,对解决染色体锚定和物种进化都具有重要作用。
研究结果
1二代测序基因组组装

采用Roche 和 Illumina二代测序平台,采用k-mer(k= 25)分析,评估基因组大小为540Mb,略大于C-value-based 评估结果 (0.55/C= 531 Mb)。

组装版本1:采用Roche 和 Illumina测序平台,获得conting42,291条,基因组覆盖度84%,N50为10.7Kb。组装为scaffold补洞后scaffoldN50为612.4 kb。

组装版本2:至采用Illumina平台,ALLPATHS-LG组装软件,获得46,291 contigs 和3,611 scaffolds,基因组覆盖度分别为72.0% 和87.6%。

2构建高密度遗传图谱

对野生型 V. Nepalensis进行测序,利用其构建作图群体,获得F2代995株植株,得到11个连锁群的4912个标记,标记的平均聚类与0.12 cM,最大的gap为3.0 cM。3scaffold锚定染色体

组装版本1:8,910条scaffold锚定到染色体,覆盖基因组的85.6%,但是有376个标记存在矛盾性。表明1/3的scaffold锚定位点可能存在错误。

组装版本2:308条scaffold锚定到染色体,但覆盖度为93.6%,其中1/5锚定到的scaffold扔存在错误。4三代基因组测序

测序深度:51X,read平均读长为5.4Kb,最长为39.4Kb, 4,638 条contigs覆盖基因组97.1%(524 Mb), N50为809 kb,最长的conting为 7.5 Mb,其长度均为二代测序的30倍。5三代测序组装验证

将测序得到的4,638 条contigs中的759条锚定到染色体上。覆盖度为83.1%,只有19个矛盾位点。与二代测序比对,存在1631个替换位点,8,611个插入位点,38,889个缺失位点。随机挑选91个indel信息利用一代测序验证,证明二代测序关于indel鉴定信息的正确性,尽管所有的替换位点在重复序列无法验证。并在拟南芥、黑腹果蝇已公布的PacBio信息中也同时证明该结果的存在。故用二代数据纠正三代数据的indel信息。6最终的组装版本

组装版本3:整合所有的版本,2,529 scaffolds 覆盖基因组 514 Mb (95.2%),279条scaffold锚定到染色体,覆盖基因组 462 Mb (85.6%)。染色体长度范围从28.9 Mb (LG10) to 67.1 Mb (LG1),染色体的gap比例为1.9%。

1 三个不同版本的组装指标

1 三个组装版本的NG图
7注释

重复序列注释数量最大的为Assembly_3,最小的为Assembly_2。三个版本中重读序列所占比例分别为:232 Mb (43.0%)、189 Mb (35.1%)、273 Mb (50.6%)。重复在一定程度上反应了唯一结构注释的基因组序列的大小,其分别为:222 Mb, 200 Mb,240 Mb。整合不同组织RNA样本的转录组数据进行注释,在 Assembly_3版本中注释出编码蛋白基因31,310个,其中30,507 genes (97.5%)锚定至染色体。

为了评估组装的完整性和准确性,筛选458真核生物核心基因(CEGs)进行后续分析。CEGs在三个版本中的数量分别为 436, 439 and 447。尽管其数量差距不大,但基于二代测序的CEGs长度比Assembly_3版本短10–20%,并且因为 其中gaps和低质量的组装版本,在其中发现了大量的错误注释信息。例如图2b中,Vigan.02G030200和Vigan.03G124500注释信息差异。


2 注释信息统计
8红豆基因组与其他豆科植物基因组完整性比较

已经发表的豆科植物基因组包括:大豆(Glycine max)、苜蓿 (Medicago truncatula)、绿豆(V.radiata)、菜豆(Phaseolus vulgaris)、鹰嘴豆(Cicer arientinum)、木豆(Cajanus cajan)、红豆(Cajanus cajan)。尽管所以的版本中均含有 96% 的CEGs,锚定至染色体的CEGs基因却有不同。

2 红豆基因组组装版本与其他豆科植物的组装结果比较
图3 不同豆科植物基因组组装结果比较
9红豆基因组的特点

构建了近乎完整的基因组序列图谱和高密度的遗传图谱,即可统计基因密度、重复序列数量、重组频率等数据。


4. An overview of the azuki bean genome
文库构建策略


更多资讯请关注壹基因!


    关注 壹基因


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册