GCTA 沈玥:数字造物——生命信息的进化和创新

 

我们生活的地球年龄大概是46亿岁,一系列超乎想象的大事件的发生造就了我们这个丰富多彩的世界。这些大事件...



如果把“基因测序”比作是对遗传信息的一种从复杂到简单的“解读”过程,那么生物合成则是反其道而行,它需要将简单的碱基单元,编辑成具有生命意义的复杂系统,是一种更加困难的“书写”过程。

A

BOUT Synthetic Biology

关于合成生物学

合成生物学的提法已出现了一百多年,但真正实现突破则是最近十几年的事:

2000年,《自然》杂志报道了人工合成基因线路研究成果,使得合成生物学在全世界范围引起了广泛的关注与重视,在短短几年内就已经设计了多种基因控制模块,包括开关、脉冲发生器、振荡器等,可以有效调节基因表达、蛋白质功能、细胞代谢或细胞间相互作用。

2006年以来,合成生物学发展又进入了新阶段,研究主流从单一生物部件的设计,快速发展到对多种基本部件和模块进行整合。

2008年,美国报道了世界上第一个完全由人工化学合成、组装的细菌基因组。

昨天和今天(4 月25、26日)是世界防治疟疾日和中国防治疟疾日当人们再次将目光投向因发现青蒿素而获得诺贝尔医学奖的屠呦呦身上时,一批专家学者进而聚焦在让青蒿素可以大规模制备的幕后英雄——合成生物学身上。想知道这里面有什么鲜为人知的故事么?下面就带来华大基因合成生物学平台负责人 沈玥 的精彩ppt: 《数字造物——生命信息的进化和创新 》







我们生活的地球年龄是46亿年,一系列超乎我们想象的大尺度事件造就了我们现在这个丰富多彩的世界。大氧化事件改变了地球是厌氧生物天下的局面;寒武纪生物大爆炸后,激烈的竞争导致了演化的加速;每一次生物大灭绝后, 地球生物中总会有一小撮最顽强的生物存活下来,在灾难过后迅速繁衍壮大;真菌的出现使得碳循环得以重新建立。

我们知道生命的密码都写在核酸序列中,微小的变异不断积累成为进化的动力。我们知道物竞天择,适应环境的性状被保留下来,不适应的性状甚至生物本身被淘汰出局。我们知道生命结构的基础是碳元素,最简单稳定的四价元素构成了整个生物世界的骨架。生命和地球之间的互动就是碳元素的循环往复。我们知道这一切的背后都有一套法则在指导,在调节,在纠正。



我们知道世界上有一百多万种生物,还有几百万等待发现,还有些永远的消失了。



哲学终极三问是“我是谁,从哪里来,到哪里去”。人类一直都在接触、了解、认识生物,知道各种生物是什么,但是有个问题一直困扰我们:生物从哪里来?或者说,究竟谁创造了万物?



古代的人们求助于神灵。圣经创世纪说上帝在第六天创造了所有生灵,按自己的样子创造了人类。中国古代传说盘古开天辟地,女娲化万物,用黄土捏出了人类。而科学的进步把这些传说扔进了废纸篓。



遗传之父孟德尔在19世纪用豌豆发现了可控可分离的遗传现象。格里菲斯和艾佛里的实验证明控制遗传的物质的是脱氧核糖核酸,也就是耳熟能详的的DNA。富兰克林给DNA拍了照片,沃森和克里克在1953年最终揭示了DNA的空间分子结构。整个二十世纪科学家们前赴后继,一步步走向生命本质的秘密。并终于在二十世纪末鼓足勇气向这个秘密本身伸出双手。



在了解了几百种病毒、细菌、真菌,两种动物和一种植物的基因组后,1990年科学家启动了人类基因组计划,华大基因也有幸参与这一人类历史里程碑事件。经过十多年几十亿美金数百名科学家的努力,人类从未如此了解自己。



随着人类基因组计划成长起来的科学家们,加上越来越成熟的基因测序技术如虎添翼,成百上千物种的基因密码被破译。比较基因组学让我们清晰的认识到众多物种之间的亲戚关系和进化路径,也让我们认识到人类自身在自然界的位置。我们和大猩猩的差别不过1%,和黑猩猩和长臂猿也是近亲。我们在遥远古代的不同时期与鱼类、青蛙、鸡、鸭嘴兽、老鼠分道扬镳,同源殊途。



现在我们对生命是什么已经驾轻就熟,对生命从哪里来也有了间接但确凿无误的了解。没有上帝,没有女娲,以智力站在生物链顶端的人类开始思考:我们可以做上帝吗?不是阿尔法GO,不是AI,不是硅基芯片控制的程序化,而是基于DNA、RNA和一切必要自然结构的真正的碳基生命?有人已经这么做了。



著名的“科学狂人”Craig Venter 花费4000万美金耗时15年打造了一个原核生物基因组“辛西娅”, 一个遗传信息来自于计算机编码的基因组。



Jef Boeke又在此基础上,向前迈了一步,创造了真核生物酵母2.0。 这迈出的一步不仅仅证明了塑造真核生物的可能性,更重要的是在这里面体现了更多人工设计的元素:以2014年完成的三号染色体为例,在30万碱基序列中,每500bp范围内就有至少一处改动。



扮演上帝,用计算机和培养基创造崭新的生物,把生命数字化再把数字生命化。这,就是合成生物学。



RichardFeynman曾说"What I cannot build, I do not understand." 合成生物学正是利用这种“建物致知”的方式去认识世界。研究方式上,既有自下而上这样通过设计简单元件、组件、通路、系统的方式,也有自上而下对复杂系统逐步拆解的方式。



DNA序列是合成生物学研究的核心。测序技术是我们解读遗传密码的工具,而书写DNA序列的技术,也就是DNA合成技术的发展,直接推动合成生物学研究的步伐。

二十世纪五十年代核酸大分子磷酸二酯键的结构被发现,在此基础上建立的核酸分子合成的方法如磷酸二酯法,到后来八十年代被广泛运用的固相合成法,技术不断升级和优化。之后受到高通量芯片测序技术的启发,DNA合成技术的升级改进也开始向高通量方向发展。





基因组学的信息积淀为合成生物学提供蓝图,从解码到重编,从解读到书写,合成生物学有助于更好的理解基因组学对整个生命科学的引领作用,并结合其他科学及工程学科领域,实现从简单到复杂的系统设计,影响着我们生活的方方面面。



比如说医药方面,屠呦呦去年获得了诺贝尔生理医学奖,她的贡献在于从植物中分离出青蒿素应用于疟疾治疗。每年全球疟疾患者超过1亿人,50万人因病去世。青蒿素的自然产量实在是太少了,仅依靠植物提取大概会有一半的患者无法得到有效治疗。Jay Keasling,  UC Berkeley的一个合成生物学牛人,通过对植物青蒿的6个基因,酵母中的8个基因进行设计改造,实现了在酵母中青蒿素前体青蒿酸的合成,并将转化率提高到10%(依赖植物提取工艺的转化率大概只有0.8% - 2%而已),之后14年赛诺菲与其合作开始工业化生产了,年产量已经可以达到全球需求量近三分之一。



再说另一个例子,Stanford的Christina Smolke将来自植物、动物、细菌及酵母中的20多个基因进行改造,在酵母中构建出了吗啡前体物蒂巴因的合成通路。





合成生物学研究成果在医药、能源、化学品、环保和材料等领域都具有极大的应用价值,因此合成生物学也成为各国竞相角逐的研究“高地”。单就DNA合成技术的研发来看,英美发达国家以及我国都有所布局,并开始了大量的投入。






在基因组学已经领先全国以至于全球的基础之上,华大基因在合成生物学方向的研究,尤其是在合成基因组相关技术应用领域也积累了独特优势。以新一代基因合成及高效组装技术为核心,依托华大基因自主开发高通量测序平台,华大基因合成生物学平台建立了从Oligo到基因组的软件分析设计及实验操作的完整流程,将研究方向定位于定制化基因组工程,信息存储及生物检测三大主题。



在定制化基因组方面,我们的创新点在于“打通了读-改-写-测”的流程。定制化在合成生物学里意味着设计,设计基于蓝图,也就是基因组信息。读即是解读,华大在基因组学解读上有得天独厚的优势,基于大数据指导下的定制化设计更精准,研发周期也比传统模式大大缩短。



过去的几年里,我们在定制化基因组工程方向积累了丰富的经验。其中一个案例就是人工合成酿酒酵母基因组Sc2.0项目,这是一个国际合作项目,涉及中英美法澳新六个国家,十个研究团队;华大基因在其中承担了三条染色体,共计近300万碱基的设计合成工作。







"读"是基因组信息解读。酵母基因组早在96年就完成基因组测序,在这个基础之上,我们做了大幅度的设计修改,包括删除、移位、替换、插入等等。

"写"是DNA合成组装,除了芯片合成技术的持续升级优化之外,我们也在后续组装技术上有所突破,在对分子生物学操作的生理学极限进行探索,目前已经实现将反应体系降低至原有水平的几十分之一,有效降低成本 。

"测"则是从编码转录翻译调控等层面,寻找基因型和表型之间的关联。而这些数据和发现,又进一步对我们之后的设计改造有指导作用。



酶工程优化则另一个定制化基因组工程的应用。以一个1000个碱基的蛋白编码序列为例,传统筛选高效突变体的方式是在目标序列中引入随机突变来筛选,但是当目标区域较多的情况下,不管是随机突变的设计还是进行突变的实验操作都是耗时耗力的。而我们可以通过计算机直接针对该序列进行突变设计,再进行科学切分,使得合成产物包含所有突变位点。该流程的优势在于规模和组合非常灵活,通过计算机辅助设计,有效简化实验,并对突变产物的多样性有量化预期,比如该突变库的多样性可以达到108次方之多。并且,需要的整个周期,也较原有水平大大缩短。







我们处在信息爆炸的时代,据称“数字宇宙”规模将在2020年达到44万亿GB, 远超过我们现有的信息存储能力。为了填补这一空间空缺,DNA媒介的数字信息存储技术成为新宠儿。华大基因也在积极的尝试以更有限的成本,实现无限数据的转存。从"活字印刷"和“Lego”积木中获得灵感,建立起以DNA为介质的新存储方式。




2003年测一个人类基因组还需要上百万美金,到2015年测一个基因组只需要1000美金。测序的成本有了大幅的降低,而合成成本在这十几年中降幅并不显著。我们把这两方面的信息加以整合,以单碱基合成成本对单碱基测序成本作图取log值,称为深圳指数“SZ Index”。可以看出2003年这个指数只有1.78, 也就是十几倍的差价。如今测序成本已经降低至1000美金,而合成成本并没有显著降低,因此 "SZ Index"已被拉升至6以上,也就是成本差了几十万倍。而随着合成生物学新的技术产生,这一指数的拐点已经出现,希望在不远的未来,我们可以把这个成本降低更多。



作者简介:

沈玥,华大基因研究院合成生物学平台负责人,深圳先进技术研究院合成生物学中心访问学者,爱丁堡大学博士。2010年加入华大基因,带领团队建立合成生物学平台。2012年开始受国家863计划支持,作为中国组代表参与五国合作计划“第二代酵基因组合成项目 (Sc2.0 Project)”,承担三条染色体,共计300万碱基的“重新”设计与人工合成工作。目前专注于合成生物学相关技术和应用的研发。

我们的GCTA风云际会嘉宾ppt的分享到今天就告一段落了,相信小伙伴们一定和科技君一样眼界大开、收获满满。很多小伙伴留言希望以后能多些这样的分享活动,真是和科技君想到一块儿去了,我们以后也会努力多创造机会让大家只需动动手指,即可体验行业精彩!

可能感兴趣:

GCTA | 华大股份CEO尹烨带大家:登山观海,风云并驱!

GCTA | 金鑫:百万基因组时代的基因组大数据(上)

GCTA | 金鑫:百万基因组时代的基因组大数据(下)


关注华大科技,尽享精彩科研!


    关注 BGI华大科技


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册