技术风云录|基于DNA的存储系统距离我们还有多远?

 

DNA存储与DNA计算都带给了我们更大的想象力,但问题是有商用前景吗?...



存储技术的发展,以存储介质的发展所驱动着,年复一年,再年复一年。EMBL-EBI成员、哈佛医学院教授、著名遗传学家George Church的团队一篇有关DNA存储信息的论文,带给了人类新的希望。

从磁带、光盘、磁盘和闪存,每一种存储介质的出现都对存储技术有着划时代的意义,那么近年大家十分关注基于DNA的存储到底距离我们还有多远呢?
首先我们先来摸清楚DNA存储的定义和概念
DNA存储的原理是为核酸中的碱基赋予二进制值,随后通过微流体芯片对基因序列合成,从而使该序列与相关数据集相匹配。1立方毫米即可存储704TB的数据,相当于数百个硬盘的容量。

DNA存储方式是采用DNA双螺旋结构上有4个核碱基,开发定制代码,DNA数字存储系统首先把硬盘信息中的二进制数翻译成定制代码,然后借助标准DNA合成机器制造出相应的碱基序列。这一序列并非一个长分子,而是多个重复片段,每一个片段携带一些索引细节,明确各自在整体序列中所处位置。分子生物学实验室用来读取生物体DNA的标准设备可以读取信息,当即呈现在电脑屏幕上。

可见,DNA存储技术的与传统的存储技术不同,传统的电子存储是基于0、1这两个符号的组合,而DNA有A、T、C、G4个碱基,在编码上就比传统的二进制存储多了许多可能。
再看看DNA存储发展历史
实际上,DNA存储与计算的研究已经持续了近30年,来自《数据存储的未来:把宇宙写进DNA里》文章介绍说,早在1986年,麻省理工学院一位被称为科学狂人的科学家Joe Davis就成功将5×7像素的图片编码到DNA中。

1994年,美国南加州大学教授雷纳德·阿德勒曼(L.Adleman)博士在《科学》杂志上发表一篇题为《组合问题的生物电脑解决方案》的论文,首次提出分子计算机,即用DNA分子构建电脑的设想。阿德勒曼指出,DNA电脑将采用其本身的“语言”,以四进制系统来编码,与“人工生命”的研究范畴将融合在一起。今后的工程技术人员应该接受更加广泛的科学教育,使自己成为“通才”,全面掌握数学、物理、化学、生物学和计算机科学知识,才能做出更多的发明和创新。

2001年,以色列科学家成功研制成世界第一台DNA计算机,它的输出、输入和软硬件全由在活性有机体中储存和处理编码信息的DNA分子组成。虽然该计算机不过一滴水大小,但这已显示出未来DNA计算机的雏形。吉尼斯世界纪录称之为“最小的生物计算设备”。随后几年,以色列科学家对DNA计算机进行了改进,当时的运行速度已高达每秒330万亿次。

2004年,来自《南方周末》徐彬的文章报道说,中国上海交大Bio-X生命科学研究中心冯国鄞称已在试管中完成了DNA计算机的雏形研制工作,论文发表在中国《科学通报》49卷第1期英文版上。

2007年,日本科学家成功使用细菌DNA储存数据。

2011年6月,深圳特区报报道称,新加坡南洋理工大学舒建军教授在《物理评论快报》(Physical Review Letters )发表了他的最新研究成果,称他的团队提出了一种通过操纵DNA链能解决基于DNA计算的战略分配问题。在实验模型中,DNA分子用来存储与计算目的相关的信息。当前使用的计算机芯片都是硅计算依靠二进制,即1和0。而通过DNA计算,除了1和0以外,你还可以做的更多。DNA由AGTC四种碱基组成,这可以形成更多的排列。DNA计算将有潜力处理模糊数据,超越数位数据。

2012年,台湾国立清华大学和德国一研究所合作,用三文鱼的DNA制造出单次写入、多次读取的存储器。

但是,取得阶段性实质进展的,却是来自英国的一个EMBL-EBI的科学家团队。欧洲生物信息研究所(EMBL-EBI)全称EMBL - European Bioinformatics Institute,是一个非盈利性的学术机构,致力于以信息学手段解答生命科学问题。EMBL-EBI建立于1994年,位于英国剑桥南部的维康信托基因园,是欧洲分子生物学实验室(EMBL,全称EuropeanMolecular Biology Laboratory)的一部分。



2012年9月,欧洲生物信息研究所Ewan Birney和哈佛医学院教授、著名遗传学家George Church的团队在Science杂志上发表《Towards practical, high-capacity, low-maintenance information storage in synthesized DNA》即《迈向实用高效能低保养的合成DNA存储信息》文章表示,他们将一本5.34万字的书籍、11张图片和一段Java程序存进了不到一沙克(亿万分之一克)DNA中!有人根据这个比例换算得出,1克DNA将能存储700TB数据,相当于1.4万张蓝光光盘,或233个3TB的硬盘。而George Church教授则表示:“今后,拇指大小的设备或许就能存下整个互联网的信息。”



从EBI官方网站上可以查询到,George Church也是EMBL-EBI的一员,并且还有联系电话。

同样在2013年,阿根廷科学家近日成功将该国国歌旋律以人工基因编码形式植入某种细菌染色体中。

那么,按照George Church的做法,将二进制信息翻译成某个中间代码,再通过微流体芯片对基因序列进行合成,从而使该序列的位置与相关数据集相匹配,方便读取。
George Church基于DNA的存储到底如何实现的呢?
来自东方早报的《存储数码信息的DNA》的文章给予了详细介绍,这里摘录如下:

首先,把电子文件的二进制码(0,1)翻译成三进制码(0,1,2);然后,用由DNA四个碱基(分别以它们的学名首字母A、T、C、G代表)构成的一套特定编码和规则,将二进制码编译成一个DNA码序列。接着,以每25个碱基向后错位的方式,把这个DNA序列切割成若干个含100个碱基的等长片段,直至整个序列的所有内容都获得四个副本(例如:1,2,3,4;2,3,4,1;3,4,1,2;4,1,2,3)。这样一来,当任何一个副本出错时,有另外三个副本可供参考认证,可谓万无一失。为了确定这些等长片段在这个DNA序列中的准确位置,George Church团队给它们各自的首尾加上了索引标识。

用DNA编码编好电子文件后,再用专门设备做DNA合成,信息写录就完成了。取用合成DNA中的信息时,先把合成DNA放入标准化学试剂,然后用DNA测序仪,根据索引标识,将各个片段依序粘接成原DNA码序列,再译回二进制码,形成电子文件,就大功告成了。George Church团队十分谨慎,在编码设计中不惜繁琐,引入多重防错检错机制,为的是保证编辑和解读复原达到零误差。

编码设计好之后,George Church团队用了五个不同类型的电子文件做测试:一段26秒钟长的马丁·路德·金《我有一个梦想》演讲录音;一篇关于DNA结构的经典学术论文的PDF文件;莎士比亚十四行诗全篇,一张EBI大楼的彩色照片;以及一段这次试验使用的软件算法(Huffman编码)。信息总量不大,约739千字节,着重检验编码对不同信息形式、内容以及格式的适用能力。DNA的存储能力的确惊人,当装着这五个文件的合成DNA的试管送到George Church手中,他看了半天,竟然什么也没找到。还是经同事指点,才发现试管底部那颗灰尘般大小的DNA。

然后,George Church团队用DNA测序仪,把合成DNA中的信息复原为电子文件。结果令人振奋:它与原始电子文件的重合率为100%。不过这100%跟着一段有惊无险的小插曲。在DNA测序时,PDF文件中的两个25碱基小节不见了。缺了它们,就会出现误差,这是绝对不能容忍的。好在编码为每个小节提供了四个副本,根据副本,编码准确地完成了复原任务。这次歪打正着,证明了该编码防错的优越性能。还好,George Church团队很快找到了丢失的原因,George Church博士保证,只需稍微修改一下程序,类似问题以后不会再发生了。
George Church团队的论文精华解读
《Towards practical, high-capacity, low-maintenance information storage in synthesized DNA》的论文中有两个图可以值得研究一下。

一是DNA的数字信息编码图。



数字信息(a,蓝色)部分,这里的三进制数字的ASCII码是莎士比亚十四行诗第18,采用Huffman编码,转化为(b,红色)用五或六base-3编码代替每个字节。这也是DNA编码的转换在硅片(c,绿色),由不同于之前使用过的三个核苷酸来替换,并确保没有homopolymers同聚物生成。在此基础上形成的大量的副本,产生四倍冗余(d,绿色,采用紫色的备用段反向补充增强数据安全性)。增加了索引DNA编码(黄)的索引基因,也被编码为不重复的DNA核苷酸。

二是,基于DNA的存储的稳定性和Scaling特性描述图



从这个图可以看出,图a表示编码效率情况,即针对存储信息量增加时编码效率和成本变化。×轴表示被编码的信息总数。标注了常见的数据字节容量:1MB1GB1TB1PB1EB3ZB(2014年估计全球数据信息量)……。黑色Y轴表示的编码效率,测定合成碱可用于数据编码的比例。蓝色的曲线(Y轴从左向右)在当前的综合成本水平上,指出了相应的编码成本的影响。

图b表示误差率情况,(Y轴)为每个恢复基的误差率,作为测序覆盖的函数。蓝色曲线代表四个文件恢复,无需人工干预:当原始读取率≥2%时使用误差为零。从我们的理论误差率模型的Monte Carlo模拟得到的灰色曲线。橙色曲线代表watsoncrick.pdf文件,需要人工校正:最小可能的误差率为0.0036%。那个盒子所在的区域显示嵌入放大。

图c表示基于DNA的存储成本的时间表。当每10年数据发生改变,DNA存储的成本效益不错;当每5-10年数据发生改变,DNA存储的成本效益表现才稍差一点;如果每5年甚至更频繁的数据改变,磁带的成本效益还是更佳一下。当然了,有人也提到,倘若存储500年的数据来计算的话,DNA成本效益就更明显表现出来了。

George Church的论文指出,DNA作为存储介质,也有显著的弱点。一是成本过高。George Church团队的实验费用高得惊人:每一兆(MB,10的6次方)字节的存储费用是12,400美元,外加测序解读220美元。这是常规磁带存写费用的一百万倍还多。所以,DNA存储必须大大降低成本,才谈得上实际应用。二是信息写读耗时。数码信息编入DNA目前只能由专门的DNA合成设备来做;而从DNA中取读信息,重组复原为数码文件,也很费时。George Church团队用了整整两个星期,才完成五个文件739千字节的复原。三是DNA介质不能重复使用,写录完毕,一般来说不能修改,不能再用。

DNA存储并非可以替代目前所有的磁带存储、光盘存储、磁盘存储或闪存存储,而是为大家提供了一个针对用户大规模的、长期和不经常访问的数字归档的现实技术方向。比如存储期五十年以上,且无需多次存取的信息,DNA介质就很有竞争力了。同时,“未来的DNA计算机在研究逻辑、破译密码、生物医药以及航空航天等领域应用将发挥其独特优势。”那么在DNA存储和DNA计算两个领域交叉发展推进进步的情况下,DNA在存储与计算领域的应用相信在不久的将来会来到我们身边。(阿明整理编辑)

阿明,独立自媒体人

微信公众号chinastor、dostorage、artcame发起人。

喜好书法、绘画、钓鱼、写诗,亦喜云与企业IT ,对创业、创新充满了好奇,码字是日常习惯,17年+从未离开过媒体。

崇尚“文字影响世界 传播创造价值”,致力于对IT技术、科技、艺术、创业、创新的独家观察与分析。


    关注 dostorage


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册