动植物De novo 测序知识大讲解
真的超有料!...
高通量测序的技术开起我们探索动植物基因组奥秘的步伐,提到动植物基因组测序,这就不得不提一个概念——de novo测序。
那么什么是de nove测序呢,它与重测序有什么区别呢?De nove测序中Read、Contig和Scaffold等又代表什么呢?De nove测序中为什么要建不同大小片段的梯度文库?基因注释又是注释哪些内容?各位客官别急,且听小编给您细细讲来。
1
De novo 测序概念
De novo 测序概念
De novo是一个拉丁文,代表从头开始的意思,而de nove测序则是指在不需要任何参考序列的情况下对某一物种进行基因组测序,然后将测得的序列进行拼接、组装,从而绘制该物种的全基因组序列图谱。
由于高通量测序长度的限制,目前测序策略是先将基因组打断小的片段,然后再对测出序列片段进行拼接,最终得到物种的序列图谱如图1所示。
图1 高通量测序模式图
2
De novo 测序与重测序区别
De novo 测序与重测序区别
重测序概念:重测序是全基因组重新测序的简称,是指是对已知基因组序列的物种进行不同个体的基因组测序,并在此基础上对个体或群体进行差异性分析。
- 从概念上来看两者的区别在于de nove测序是对没有参考基因组的物种进行测序,而重测序是对已有基因组的物种进行测序,这只是它们区别很小的一部分。
- 从原理上来看de nove测序和重测序最根本的区别在于de nove测序需要对测序得到的Reads进行拼接组装,而重测序得到的数据则是没有组装的短的Reads序列。
3
Reads Conting Scaffold概念
Reads:即我们通常说的读长的意思,它是指高通量测序平台直接产生的DNA序列。Reads Conting Scaffold概念
Contig:是指Reads基于Overlap关系,拼接获得的长的序列;
Scaffold:是指将获得的Contig根据大片段文库的Pair-end关系,将Contig进一步组装成更长的序列;
关于三者之间的关系如图2所示,注意的是Contig是无Gap的连续的DNA序列,而Scaffold是存在Gap的DNA序列。
图2 Reads Contigs以及Scaffolds之间关系
4
大、小片段库
大、小片段库
大片段文库是指插入片段大于1Kb的文库,大片段文库主要是用于将Contig进一步组装成Scaffold。文库类型通常有2Kb、5Kb、10Kb、15Kb以及20Kb等。建库测序过程如图4所示。
小片段文库是指插入片段小于1Kb的文库,小片段文库产生的Reads主要用于拼接成Contig。例如在de nove测序中,我们通常要不同梯度下片段如250bp、350bp、500bp等;建库测序流程如图3所示。
值得注意的是除了de nove测序需要建大片段文库外,其他测序如重测序只需建一个小片段文库(250bp),而构建大片段文库过程繁琐,价格较高。这是de novo测序比重测序价格贵的原因之一。
图3 小片段建库流程
图4 大片段文库建库流程
5
基因组装
基因组装
对于测得的序列,例如通过Hiseq X ten平台进行测序,我们直接获得是长度是许多的150bp Reads;de nove测序最重要的目的就是对这些短的Reads进行组装、拼接,最终绘制出这个物种的基因组图谱。而重测序则不需要对Reads进行组装,而是直接将获得短的Reads序列与参考基因组进行比对,从而找出相应的变异位点。这是de novo测序比重测序价格贵的原因之二。而且组装周期通常需要很长时间,简单基因组需要几个月左右的时间,复杂基因组需要的时间则会更长。
对于利用高通量技术对物种基因组进行测序,不少人可能认为可以得到每条染色体的序列,这其实是错误的,很多物种得到的序列都是一些长长短短的Scaffolds以及一些未组装的Reads。如果要组装到染色体水平则需要借助遗传图谱的辅助。对于一些高重复高杂合的区域,由于目前组装算法以及测序技术的限制,这些区域往往组装的效果不是特别理想。
6
基因组组装质量评估
对于组装得到基因组,如何评估基因组组装的好坏呢,我们通常会听到用ContigN50和ScaffoldN50来评估基因组组装的质量,那么什么是ContigN50和ScaffoldN50呢?基因组组装质量评估
所谓ContigN50是指将拼接得到的Contig从长到短进行排列,排列成一条线。当长度达到总长度一半的时候,此时该条Contig的长度即为ContigN50;如图5所示,Contig 2的长度即是ContigN50。同理,ScaffoldN50是将组装得到的Scaffold从长到短进行排列,当长度达到总长度一半的时候,此时该条Scaffold的长度即ScaffoldN50;一般来说ContiN50和ScaffoldN50的长度越长,基因组组装的质量也就越好。但是ContigN50和ScaffoldN50也不是唯一评估标准,还要看基因组的拼接的完整性等。
除用ContigN50和ScaffoldN50对基因组进行评估外,诺禾致源还会对基因组进行序列一致性评估、序列完整性评估、准确性评估、Cegma保守性评估等。
图5 Contig N50
7
基因组注释
基因组注释
对于组装得到的序列其实是一系列的ATCG的排列组合,那如何解读序列中的信息呢?
我们要做的是对基因组进行注释,注释主要是对基因组中的重复序列注释、非编码RNA的注释、基因结构的注释以及基因功能的注释,注释的方法有同源注释以及de nove预测等。重复序列的注释主要是串联重复序列注释(卫星DNA、小卫星DNA以及微卫星DNA等)和散列重复序列(LTR、LINE、SINE以及转座子序列等)。非编码RNA的注释主要是对MicroRNA、rRNA以及tRNA等注释;基因注释主要是对基因的启动子、外显子、内含子等注释。
本期全基因组测序先给大家讲到此,如有疑问欢迎大家踊跃留言哈!
诺禾致源始终提供领先的基因组学解决方案,如果您有想法请携手我们一起,使最前沿的科学技术真正惠及于民,诺禾致源动植物De novo事业部竭诚为您提供最优质的服务~~
注:由于小编昨天的疏忽,招聘信息中关于天津医科大学宣讲时间出现错误,请各位客官务必注意了!
校园招聘正在进行中
寻“人”之旅——沈阳站
宣讲时间:4月18日 18:30
宣讲地点:中国医科大学 沈北校区公共教学楼礼堂寻“人”之旅——天津站
宣讲时间:4月18日 18:30
宣讲地点:天津医科大学 西楼705
我们来了,同学,你准备好了吗?~
点此处了解校招详情
刘同欣(De novo事业部)丨文案
王钢丨编辑
配图来源于网络,侵删
为你读文献
为你分享资源
为你分析研究思路
为你提供最前沿的科研动态
学霸,逗逼,科学家,文艺青年同在!
诺禾致源丨提供领先的基因组学解决方案
为你分享资源
为你分析研究思路
为你提供最前沿的科研动态
学霸,逗逼,科学家,文艺青年同在!
诺禾致源丨提供领先的基因组学解决方案
长按识别二维码,关注诺禾致源
关注 诺禾致源
微信扫一扫关注公众号