转录组组装_【生信人】

现有的转录组组装技术主要有三大方向：基于参考序列的组装，从头组装，两者结和。继续看吧！...

第一部分：总体介绍挑战与机遇

1. 现有的转录组组装技术主要有三大方向：基于参考序列的组装，从头组装，两者结合的组装方法

2. 第二代测序与Sanger测序在转录组中的优势：高灵敏度，高精度，高深度，检测范围广甚至包括起调节作用的稀有转录本，

3. 第二代测序与其他高通量技术如基因芯片技术相比在转录本中的优势：能达到单碱基水平的分辨率，能反应表达水平的动态变化，能进行从头基因注释

4. 第二代测序在组装中的挑战：测序片段(reads)短，质量值偏低，数据量大，要求大内存或者多核计算机。现在已经有一些软件能解决这些问题如：TrinityStringtie等

5. 转录本组装与基因组组装的差别：1.测序深度问题：各个转录本的深度不一致 2.链特异性，组装软件需要考虑正义链和反义链之间的overlap 3.转录本变异：例如可变剪切

6、第三代测序--全长转录组。PacBio台的平均读长已达到10Kb，最长可达40Kb，其长度大大超过一般转录组中典型基因的长度，所以利用第三代PacBio RS II测序平台进行转录组的研究，依靠其长读长测序的优势，文库构建时不再需要将转录本打断，信息分析不再需要组装，就能够直接得到高质量的全长转录本序列。同时，由于PacBio的测序不依赖PCR，自然也就避免了测序中出现的GC偏向性问题。尤其对于多倍体转录本如小麦组装发挥重要作用

第二部分：实验提取与数据分析

组装前：

1. 文库构建：A. 为了多的构建转录本，核糖体RNA (rRNA) 和丰度过高的转录本应该被移除，但是如果实验要研究转录本的丰度数值的话，应该构建不经过移除处理的文库。 B. 是否取消文库构建的PCR过程，因为PCR导致高GC含量的转录本测序深度偏低。需要研发免扩增的技术(Amplification-free protocols)，最新的单分子测序技术（第三代测序技术）则不需要PCR扩增,尤其是Helicos甚至不需要构建cDNA文库，但是这种测序技术会大幅增加错误率（因此必须纠错后使用）。应用免扩增的技术使得转录本的测序深度更平均，更连续，有利于组装。C. 利用链特异性的RNA测序技术则可以利用互补链的转录本信息来辅助组装。这在基因密度较大的基因组如细菌，古细菌和低等真核生物中尤为重要。此外在检测高等生物的antisense transcription中也有应用。http://bioinformatics.dxy.cn/bbs/topic/20719610http://en.wikipedia.org/wiki/Antisense_RNA 什么是链特异的RNA测序？

链特异性转录组测序（ssRNA-SEQ）是指在构建测序文库时，利用高保真Taq酶将mRNA链的方向信息保存到测序文库中。测序后的数据分析可确定转录本是来自正义还是反义DNA链。与普通转录组测序相比，它更能准确地统计转录本的数量和确定基因的结构，同时可以发现更多的反义转录本，目前被广泛地应用于研究基因结构和基因表达调控等领域范围。

2. 测序：A. 测序平台的选择：二代一般为Illumina，三代为PacBio

B. 测序片段长度：越长越好 C. 二代一般采用双向测序的策略（pair-end）：双向测序可以将测通的短测序片段连接成较长的片段，此外不同插入片段的reads还有助于识别可变剪切等。

3. 数据预处理：A. 移除人工引入的序列：测序接头 low-complexity reads 和一致的reads (通常由PCR扩增造成)。B. 通过测序质量以及kmer频率移除测序错误，kmer纠错的缺点是丰富较低的转录本将会被移除。C.三代数据一般使用二代数据做纠错或测序倍数较高的情况下自身纠错。

组装策略：

1. 基于参考序列的组装：A. 首先将测序reads利用特定比对软件如Tohat2或者Hisat2比对到基因组上。 B. 利用overlap关系构建graph C. 转换graph中的信息为转录本。软件有Stringtie、Cufflinks, Scripture等。关键步骤是reads比对和构图解码，reads比对分为两个策略：种子延伸和Burrows–Wheeler转换法。不同算法在处理跨越内含子的reads处理上相对不同。构图现在主流的也有三种算法：Stringtie、Cufflinks和Scripture。通常Cufflinks在重构转录本上更加保守而Scripture则在同一个位置上能得到更多的转录本，而stringtie主要利用网络流算法，能够拼接出更完整、更准确的基因，并且StringTie采用拼接和定量同步进行，相对于其他方法，其定量结果更加准确。此外Trinity可以在genome引导下进行转录组组装。

基于参考序列的组装的优点：1.将整体的数据组装转换为各个位点的局部组装，内存需求小。2.污染及人工引入的序列影响小，因为这些reads不能被比对回参考序列。3.灵敏度高，能检测低丰度的转录本4.组装的转录本序列更完整，gap可以使用参考序列来填补，类似的可以获得更长的UTR序列。4.可以发现参考序列中未注释的新的转录本。

基于参考序列的组装的应用：在组装细菌，古细菌，低等真核生物的转录本中更加容易，是因为这些物种的基因含有较少的内含子以及较少的可变剪切。转录本的边界可通过基因组中reads的连续覆盖度来判断，转录本的起始终止点可通过5端帽子或者polyA来判断。但是在基因密度较大的基因组中，这种策略无法区分来自两条链的转录出来的具有overlap的转录本，所以会把他们融合组装成一个转录本，即使他们不是一个基因的多个顺反子。链特异性的RNA测序也只能区分来自不同链的转录本而不能区分同一个链上具有overlap的基因的转录本。植物和哺乳动物的基因结构较复杂，很难进行组装。Cufflinks 、Scripture、Stringtie主要是针对哺乳动物设计的重构转录本的软件。在多倍体植物中，转录本的组装依然是个难题。

基于参考序列的组装的缺点：1.依赖于参考序列，如果参考序列本身不可靠，那么转录本组装结果可信度很低。2.比对软件会导致错误的比对。3.不容易组装trans-spliced genes，而这些基因对研究一些癌症一份关键。

其他：基于参考序列的组装当然不能没有参考基因组，然而在缺少本物种的参考基因组的情况下可以使用相近物种的基因组序列（草莓基因组文章）。

总结：在高质量参考序的存在下，该方法具有较高的灵敏度和精度，尤其对于基因疏松性基因组。对于高等动植物利用更长的reads有利于转录本的组装。基于参考序列的组装将成为基因组注释的一个强有力工具。

2. 从头组装：不利用基因组，直接利用测序的reads之间的overlap进行组装。组装的算法为构建De Bruijn graph，然后从graph中连接reads构建转录本。主要流行使用Trinity组装软件了。其原理是首先Inchworm使用k-mer算法进行快速有效的组装，其能覆盖一个单一的转录本包含一些可变剪切变异转录本共用k-mer的集合。然后Chrysalis对这些转录本进行聚类，并对这些类进行构建de Bruijn路径图，每条路径反映了这些变异转录本重叠部分的复杂度。最后Butterfly用相关reads分析路径图，并报告可信的转录本序列，解析不同转录本亚型和来源同一gene的转录本。

从头组装的优点：与基于参考序列的组装策略相比，具有以下优点1.不依赖于参考序列 2.不依赖于比对软件 3.从头组装能较好的重建可变剪切或者来自染色体重组的转录本。

从头组装的应用：对细菌，古细菌，低等真核生物的转录本组装十分轻松。利用测序深度大于30层、测序长度为35bp的reads成功组装出了酵母的转录本，其中大部分组装出来是全长转录本。在不构建互补反转的kmer的情况下，可以区分来自不同链的具有overlap的基因转录本。然而对于来自同一个链上的具有overlap的基因则依然无法区分，或许可以利用测序深度的不同、明显的转录起始终止位点、编码阅读框来进行区分。由于在高等真核生物中，从头组装是在无参考基因组条件下研究挖掘重要基因功能的主要手段。此外从头组装在辅助基因组注释以及基因组组装评估方面具有重要的作用！从头组装的缺点：1.需要较大内存资源。2.需要较高深度的测序。3.对测序错误敏感。4.高相似度的转录本可能会被合并

3. 1和2结合的组装方法：结合基于参考序列的组装的高敏感度和从头组装查找新基因、可变剪切的能力。是先比对到基因组上再进行从头组装还是先先进行从头组装，到现在没有一个系统的评价，在不同的条件下需要选择不同的策略。

先比对再组装：比对完成之后，进行基于参考序列的组装，将组装的得到的初步结果和reads混在一起作为从头组装的输入文件（要求从头组装既支持短reads也支持长reads，代表：Trans-ABySS and Oases）此外Stringtie和Trinity也是 1和2结合的组装方法。在参考基因组比较完整的情况下，含有错误的reads或者污染的reads将无法比对回基因组，这使得第二部中的从头组装占用更少的内存，更加准确。当reads中含有较多污染时，应当首选该策略。

先组装再比对：当参考序列质量较差或者是近缘物种的基因组时，应该先进行从头组装，在把从头组装得到的序列比对回参考序列进行延伸，构建scaffold。这中策略的优点是参考序列的错误影响不大。最近的一项鲶鱼转录本的研究中，在从头组装完成之后比对回棘鱼的基因组作进一步的组装，获得了更长的转录本（N50增加了27%），蚊子转录本也是用这种方法构建的。

4、三代全长转录本组装：一般采用SMRT Analysis software suite 软件或者最新的TAPIS。能够直接获得全长转录本，克服二代组装众多难题，组装结果更准确。但数据需要纠错。

选择策略：选择策略依赖于数个因素如：是否存在参考序列，测序能力，计算能力，数据类型，项目的目标等等。转录本的数据能提供大量的信息，有时候一小部分数据的研究也能带来成果，如最近水稻的研究中发现了新649个基因可能与耐盐性有关。还有的研究只关注数据的一部分，如老年痴呆症研究中假设发病机理与可变剪切的起始位点及剪切模式相关。随着越来越多的基因组被测序，基于参考序列的组装策略应用将越来越广泛，当然没有参考序列的只能使用从头组装方法。

选择组装软件：不同的测序平台有相应的不同数据类型，错误模型，因此也有不同的相应的组装算法、组装软件

评价组装的质量：对于基因组的组装结果评价已经有较多的研究，但是转录组质量的评价现在还没有一个统一的标准。一般用保守基因做一下评估，如BUSCO。

总结和未来的展望：两种不同的组装方法的发展使得转录组组装能应用于几乎任何基因组，甚至在宏转录组中。HPC(高性能计算)的发展大大的减少了组装大量数据的运算时间，最近也有研究在开发基于云计算的组装软件。同时，实验方面如RNA提取和测序技术的发展也大大的改善了组装的结果。第三代测序技术如PacBio的应用，使得reads的长度大幅提高，加入这种技术的通量能达到现在第二代测序技术的能力，那么相信在不久的将来，转录组的研究可能不在需要组装，而直接应用测序数据。

引自http://wenku.baidu.com/view/87c9f490dd88d0d233d46a23.html，有改动