序列重复转座子

干货：基因组注释详解

基因组注释(Genomeannotation)是利用生物信息学方法和工具，对基因组所有结构高通量注释，是当前研究的一个热点。不知道的赶紧关注学习吧。...

基因组注释(Genome annotation) 是利用生物信息学方法和工具，对基因组所有基因和其他结构高通量注释，是当前研究的一个热点。

基因组注释主要包括五个研究方向：

（1）重复序列的识别

（2）非编码RNA的预测

（3）基因结构预测

（4）基因功能注释

（5）假基因的识别

下文将分别对这五个领域进行阐述。

1、重复序列的识别

A、复序列的研究背景和意义重复序列可分为串联重复序列（Tendam repeat）和散在重复序列(Interpersed repeat)两大类。其中串联重复序列包括有微卫星序列，小卫星序列等等；散在重复序列又称转座子元件，包括以DNA-DNA方式转座的DNA转座子和反转录转座子(retrotransposon)。常见的反转录转座子类别有LTR,LINE和SINE等。

另外还有其他的重复序列类型，如图：

B、重复序列识别的发展现状

目前，识别重复序列和转座子的方法为序列比对和从头预测两类。序列比对方法一般采用Repeatmasker软件，识别与已知重复序列相似的序列，并对其进行分类。常用Repbase重复序列数据库。从头预测方法则是利用重复序列或转座子自身的序列或结构特征构建从头预测算法或软件对序列进行识别。从头预测方法的优点在于能够根据转座子元件自身的结构特征进行预测，不依赖于已有的转座子数据库，能够发现未知的转座子元件。常见的从头预测方法有Recon，Piler，Repeatscout,LTR-finder，ReAS，mite等等。

C、重复序列识别的研究内容

获得组装好的基因组序列后，我们首先预测基因组中的重复序列和转座子元件。一方面，我们采用RepeatScout、LTR-finder、Tendem Repeat Finder、Repeatmoderler、Piler等从头预测软件预测重复序列。为了获得从头预测方法得到的重复序列的类别信息，我们把这些序列与Repbase数据库比对，将能够归类的重复序列进行分类。另一方面，我们利用Repeatmasker识别与已知重复序列相似的重复序列或蛋白质序列。通过构建Repbase数据库在DNA水平和蛋白质水平的重复序列，Repeatmasker能够分别识别在DNA水平和蛋白质水平重复的序列，提高了识别率。目前在基因组项目中使用对重复序列进行区分主要用途有两种第一种是对重复序列进行分类和识别，另外就是对基因组进行重复序列屏蔽，这里有利于后期的基因预测，但是一定要注意有部分基因内部就是重复序列，比对tandem repeat ，这里要万分小心，记得在后面的分析中进行处理，尤其是植物。

D、重复序列识别的关键技术难点

1）第二代测序技术测基因组，有成本低、速度快等优点。但是由于目前产生的读长（reads）较短。由于基因组序列采用kmer算法进行组装，高度相似的重复序列可能会被压缩到一起，影响对后续的重复序列识别。

2）某些高度重复的序列用现有的组装方法难以组装出来，成为未组装reads（unassembled reads）。有必要同时分析未组装reads以得到更为完整的重复序列分布图。同时，未组装的短片段reads重复度更高，识别其重复区域具有较大难度。

目前随着三代测序技术，加上光学图谱技术的更新，后期针对这一部分，肯定是可以组装出长又准确的序列，相信重复序列识别这一部分会有很大的进步。

2、非编码RNA序列的预测

A、非编码RNA预测的研究背景和意义

非编码RNA，指的是不被翻译成蛋白质的RNA，如tRNA, rRNA等，这些RNA不被翻译成蛋白质，但是具有重要的生物学功能。miRNA结合其靶向基因的mRNA序列结合，将mRNA降解或抑制其翻译成蛋白质，具有沉默基因的功能。tRNA (转运RNA)携带氨基酸进入核糖体，使之在mRNA指导下合成蛋白质。rRNA(核糖体RNA)与蛋白质结合形成核糖体，其功能是作为mRNA的支架，提供mRNA翻译成蛋白质的场所。snRNA（小核RNA）主要参与RNA前体的加工过程，是RNA剪切体的主要成分。

B、非编码RNA预测的发展现状由于ncRNA种类繁多，特征各异，缺少编码蛋白质的基因所具有的典型特征，现有的ncRNA预测软件一般专注于搜索单一种类的ncRNA，如tRNAScan-SE 搜索tRNA、snoScan 搜索带C/D盒的snoRNAs、SnoGps 搜索带H/ACA 盒的snoRNAs、mirScan 搜索microRNA等等。Sanger实验室开发了Infernal软件，建立了1600多个RNA家族，并对每个家族建立了一致性二级结构和协方差模型，形成了Rfam数据库。采用Rfam数据库中的每个RNA的协方差模型，结合Infernal软件可以预测出已有RNA家族的新成员。Rfam/Infernal方法应用广泛，可以预测各种RNA家族成员，但是特异性较差。我们建议：如果有更好的专门预测某一类非编码RNA的软件，那么采用该软件进行预测；否则，使用Rfam/Infernal流程。

C、非编码RNA预测的研究内容

利用Rfam家族的协方差模型，我们采用Rfam自带的Infernal软件预测miRNA和snRNA序列。由于rRNA的保守性很强，为此我们用序列比对已知的rRNA序列，识别基因组中的rRNA序列。tRNAscan-SE工具中综合了多个识别和分析程序，通过分析启动子元件的保守序列模式、tRNA二级结构的分析、转录控制元件分析和除去绝大多数假阳性的筛选过程，据称能识别99%的真tRNA基因。

D、非编码RNA预测中拟解决的关键技术难点

识别非编码RNA的假基因：基因组中很多序列由非编码RNA基因复制而来，与非编码RNA基因序列相似，但不具有非编码RNA的功能。目前我们采用的非编码RNA序列的预测方法都是基于序列比对和结构预测，不能够很好的去除这类非编码RNA的假基因。针对这个问题，我们考虑结合RNA表达信息如RNA-seq数据进行筛选。

3、基因结构预测

A、基因结构预测的研究背景和意义

通过基因结构预测，能够获得基因组详细的基因分布和结构信息，也将为功能注释和进化分析工作提供重要的原料。基因结构预测包括预测基因组中的基因位点、开放性阅读框架（ORF）、翻译起始位点和终止位点、内含子和外显子区域、启动子、可变剪切位点以及蛋白质编码序列等等。

B、基因结构预测的发展现状

原核生物基因的各种信号位点（如启动子和终止子信号位点）特异性较强且容易识别，因此相应的基因预测方法已经基本成熟。Glimmer是应用最为广泛的原核生物基因结构预测软件，准确度高。而真核生物的基因预测工作的难度则大为增加。首先，真核生物中的启动子和终止子等信号位点更为复杂，难以识别。其次，真核生物中广泛存在可变剪切现象，使外显子和内含子的定位更为困难。因此，预测真核生物的基因结构需要运用更为复杂的算法，常用的有隐马尔科夫模型等。常用的软件有Genscan、SNAP、GeneMark、Twinscan，genewise，braker、pasa，augustus等。

C、基因结构预测的研究内容

基因结构预测（原核的太简单，主要说真核）主要采用从头预测，基于同源预测和转录组预测三种方法相结合。（1）从头预测方面主要是从基因的结构出发去预测序列中某一个部分是否存在基因，这种预测软件的优点在于不需要该物种的其他信息，使用比较广泛，但是缺点在于没有特异性，预测的准确定过低，主要的代表软件有glimmer，geneid，genscan，augustus等。（2）基于同源预测，就是基于同源物种的信息（主要是蛋白序列）进行预测，主要的软件包括genewise，exonerate等，其中genewise主要针对动物，exonerate主要针对植物。方法有点是比较准确，但是过于依赖同源和运行时间过长（需要先进行粗略比对，详细情况回复geneblastA见历史消息）。（3）基于转录组数据预测，目前主要的软件代表是pasa，tophat+cufflinks，EVM那篇文献认为pasa的结果要优于后者，主要原因在于pasa的结构识别还是很牛叉的，而后者必须借助bestorf，transcoder等编码区预测软件进行再次识别。转录组预测软件的有点在于基本预测出来的结果都是很准确的，但是受两个因素的干扰，一个就是转录组测序数据量的多少，还有就是转录组数据处理的好坏。最后利用整合软件进行整合，用的比较多的有EVM，Glean，marker等。

D、基因结构预测中拟解决的关键技术难点

目前，真核生物的基因结构预测方法仍有较大改进空间，主要面临以下的技术难点。

1) 如何利用现有的数据和算法，更好地识别基因的可变性剪切位点。

2）随着测序工作的进展，许多目前研究较少的物种也将提上测序日程。大多基因结构的从头预测算法需要预先训练预测参数。现有资源和数据稀缺的物种将很难获得预测参数。

3）克服组装错误对基因结果预测的影响

4）建立基因结构预测的评价系统。

可变性剪切位点的预测较为困难。如何结合RNA-seq数据进行可变剪切预测将是重要的工作方向和难点。

4、基因功能注释

A、基因功能注释的研究背景和意义

获得基因结构信息后，我们希望能够进一步获得基因的功能信息。基因功能注释方向包括预测基因中的模序和结构域、蛋白质的功能和所在的生物学通路等。

B、基因功能注释的发展现状

全基因组测序将产生大量数据，而实验方法由于成本较高，不适用于全基因组测序的后续功能分析。为此，目前普遍采用比对方法对全基因组测序的基因功能进行注释。KEGG和Gene Ontology是目前使用最为广泛的蛋白质功能数据库，分别对蛋白质的生物学通路和功能进行注释。Interpro通过整合多个记录蛋白质特征的数据库，根据蛋白质序列或结构中的特征对蛋白质进行分类。

C、基因功能注释的研究内容

目前，利用10个常用的数据库进行基因功能注释。使用的数据库有Uniprot蛋白质序列数据库、KEGG生物学通路数据库、Interpro蛋白质家族数据库，KOG，COG，Swissport，TrEmble，NT，NR和Gene Ontology基因功能注释数据库。

其中注释中需要注意的是，interpro注释，是利用java书写的，程序在进行大量数据注释的时候容易报错，建议如果没有指定这个数据库，可以利用ncbi的CDD进行替代。其他的注释库中比较重要的是GO和KEGG。

D、基因功能注释中拟解决的关键技术难点

目前我们的功能注释工作是建立在比对的基础上，这将会带来两个比较大的问题。首先，此方法严重依赖于外部数据，对某些研究较少的物种限制很大。其次，序列相似并不表示实际生物学功能相似，考虑引入序列比对之外的方法，进一步完善基因功能注释工作。

5、假基因注释A、假基因注释的研究背景和意义假基因是功能基因的缺陷拷贝，它源于蛋白质编码基因、与起源基因非常相似，但是不能编码蛋白质．假基因的形成，即基因正常活性的丧失是由对基因表达有阻断作用的突变导致的．这些变化主要包括消除起始转录的信号，阻止外显子 / 内含子连接点的剪接或过早地终止翻译等．研究假基因首先是因为他可以为进化研究提供参考，另外就是“死去的基因”被证明也是有功能的。

B、假基因注释的发展现状在过去几年时间里，有关假基因的研究取得了很大的进展，主要集中在假基因的来源，假基因的识别，进化研究，分布情况和功能上。对于基因组注释我们只需关注如何进行正确的预测和识别。

C、假基因注释的研究内容正如上文所说，假基因的鉴别是假基因相关研究的基础，而且它对基因注释的精确度也有很大影响．尤其是基因与重复假基因之间的区分是很有挑战性的问题．假基因的识别工作主要是由耶鲁大学 Gerstein 实验室研究小组完成的．他们从果蝇、线虫、小鼠、人等很多物种基因组中系统地搜索识别假基因，并创建了专门的假基因数据库 (http://www.pseudogene.org)，可供研究人员免费下载使用．表 1 中列举了目前国际上几个通用的假基因数据库[21-23]和假基因识别程序．

D、假基因产生的两种途径产生假基因的渠道主要有以下两种[2-3]：一是基因组 DNA 重复或染色体不均等交换过程中基因编码区或调控区发生突变(如碱基置换、插入或缺失)，导致复制后的基因丧失正常功能而成为假基因，这种假基因称为重复假基因 (duplicated pseudogene)；二是 mRNA 转录本反转录成 cDNA 后重新整合到基因组，由于插入位点不合适或序列发生突变而失去正常功能，这样形成的假基因称为加工假基因或返座假基因(processed pseudogene or retropseudogene)

参考资料：

【1】http://www.dxy.cn/bbs/topic/21530357(基因组注释)

【2】http://www.plob.org/2011/11/30/493.html（假基因研究现状)

【3】Gene Structure Annotation and Analysis Using PASA

【4】Automated eukaryotic gene structure annotation using EVidenceModeler and the Program to Assemble Spliced Alignments.

感谢关注订阅号