未来组最新Paper:全长转录组研究新工具HySeMaFi

 

无参考基因组的转录组研究怎么做?看这里!...





由华中农业大学园艺林学学院研究团队主导的,未来组参与的全长转录组分析项目文章,近日发表于Scientific Reports。研究通过结合全长转录组Iso-Seq和RNA-Seq两者优势,针对无参考基因组物种的转录组分析开发了HySeMaFi流程,该流程可对基因剪接形式进行挖掘,并精确定量isoform表达等。

二代测序RNA-Seq是研究基因表达重要工具,然而,由于其读长短,并不能完整重构转录组中isoform全长,更无法对可变剪接进行深入分析,尤其在无参考基因组的转录组研究中更为明显。目前,很多研究将PacBio SMRT测序的长读长用于有参考基因组物种的转录组分析,以确定其中广泛存在的可变剪接形式,而在无参考基因组物种的转录组分析中,并无更好的方法或研究策略用于可变剪接或isoform的准确定量等分析。



在本次研究中,研究者基于RNA-Seq和三代全长转录组测序开发了HySeMaFi(hybrid sequencing and map finding),克服了RNA-Seq中不完善的isoform重构形式,同时,也可定量isoforms表达,为后续研究提供准确的参考基础。

 研究方法
1. 收集9株矮牵牛的4个组织:根(命名dangen)、茎(命名danjing)、叶(命名danye)和花(命名danhua),提取RNA,反转录为cDNA,分别构建文库:Miseq (PE300)、Hiseq (PE100)和PacBio RSII SMRTbell(1–2 kb, 2–3 kb,共6个Cells),上机测序。

2. 二代RNA-Seq数据进行组装,得到Contigs(经低阈值和默认参数的Trinity组装);三代Iso-Seq数据校正后得到高质量全长转录本(经ICE和Quiver校正;结合短读长,经LSC校正);对全长转录本和组装的Contigs进行mapping finding。

3. 基于2,进行可变剪接分析及isoform差异表达分析。
 研究结果
1. 基于RNA-Seq和Iso-Seq两种测序策略,开发HySeMaFi分析方法,示意图见Fig. 1。在RNA-Seq中,经不同组装方法拼装出所有理论上的isoforms形式(涵盖有真实的Isoforms形式),同时在Iso-Seq中经过校正得到A,B两种isoforms。通过比对方法,建立RNA-Seq中 longest molecules(如图中 1***)和PacBio corrected reads比对关系,用于后续下游分析,如得到的longest molecules和PacBio corrected reads可用于分析可变剪接形式,PacBio corrected reads可作为参考基因集做后续基因表达分析。
Fig. 1 HySeMaFi方法(hybrid sequencing and map finding )示意图 


2. PacBio数据经聚类,80% isoforms聚类的cluster含有2个以内isoforms形式,同时也发现100个以上cluster含有50个isoforms形式(Fig. 2a)。经HySeMaFi方法得到的转录本,如组装的longest molecules 和PacBio corrected reads,除了可能的外显子对应的基因isoforms外,至少有2,264基因有2个以上可变剪接形式(Fig. 2b)。为验证,以Miseq数据作为query,比对到Hiseq数据的longest Contigs,结果与基因分析中长读长作为数据集的结果一致(Fig. 2c 和Fig. 2d)。

Fig. 2 经HySeMaFi方法全方位确定基因可变剪接形式 
3. 以LSC校正后的85,571 unique reads为参考基因集,对花、茎、叶和根组织基因表达进行分析。与花、茎和叶组织相比,根部有2,904,1,618和3,868个isoforms表达量显著增加,其中639个转录本在根部表达最为显著(Fig. 3a和Fig. 3b)。同时,与花、茎和叶组织相比,根部有1,967,1,219和2,780个isoforms表达量显著降低,其中869个转录本在根部表达最为显著(Fig. 3c和Fig.3d)。
Fig. 3 以HySeMaFi方法得到的基因为参考,对根、茎、叶和花中基因表达进行分析 


4. 仅经RNA-Seq,聚类去冗余后,最后得到193,749个转录本用做参考基因集,比较以RNA-Seq与Iso-Seq获得的基因集为参考的基因表达,发现前者的部分转录本在聚类过程中被去掉了,两者在基因表达并不一致(Fig. 4e 和Fig. 4f)。而在两者中都有的转录本,表达情况一致(Fig. 4g和Fig. 4h)。
Fig.4 以PacBio corrected long reads与RNA-Seq的contigs为参考的基因表达情况对比 


通过结合RNA-Seq和Iso-Seq,开发的针对无参考基因组的HySeMaFi分析流程,在转录组分析中,可挖掘更多基因可变剪接形式及精确定量isoforms的表达。未来组基于丰富的全长转录组项目经验,针对特定项目,对分析流程进行优化,以期为不同领域 的研究者提供更为完善的解决方案。

参考文献

Guogui Ning, et al. Hybrid sequencingand map finding (HySeMaFi): optional strategies for extensively decipheringgene splicing and expression in organisms without reference genome. Scientific Reports. 2017, 7: 43793.文献下载,请移步“阅读原文”

文案:周红梅

审核:梁帆

编辑:张芳芳

图片来源于网络|侵删

想了解三代测序技术?
想解决困惑许久的难题?
想跟各个大牛们谈情说“事”?
来这里,一个最纯的技术交流区!




武汉未来组生物科技有限公司(Nextomics Biosciences)成立于2011年8月8日,总部位于武汉光谷生物城,目前在北京生命科学园和美国纽约设立有分支机构,是中国首家第三代测序服务公司。

武汉未来组通过三代测序生物信息学工具和流程的开发,解决了复杂基因组组装、微生物完成图组装、全长转录组分析、人类基因组变异检测等领域的技术瓶颈,推动了基因组学研究的升级换代,目前已经完成数百个三代测序科研项目,发表了多篇三代测序的科学文献。因为专注于三代测序技术开发和应用推广,武汉未来组已经成为中国三代测序技术应用的第一品牌。


    关注 Nextomics


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册