伴随深海深空、产业互联网、大规模健康队列研究的需求,目前的存储介质即将无法满足数据生产需求,DNA存储技术适时出现。2021年,微软连同Illumina、西数等机构成立了DNA存储联盟,其中成员DNA Script近期获得2亿美元融资。恰逢“DNA数据存储”前沿论坛举办,基因慧基于会议内容总结如下。更多详情敬请关注即将发布的《DNA存储蓝皮书》,欢迎储存/算法/IT/通信/合成等机构参与合作。 文章 | 基因慧 编辑 | Kathy 审核 | Mark 关键词 | DNA存储 大数据需求推动DNA存储发展 图1 The World Keeps Creating More Data (来源/IDC) 2021年,据IDC预测,2020年到2025年,全球数据量每年增加23%,而2025年全球数据量将达到180 ZB(1ZB=1024EB,1EB相当于一部可以播放36,000年的高清视频)。根据与会专家病毒所刘翟研究员演讲,有97%的数据由于存储技术和存储规模的限制而无法被保存。 因此”互联网数据中心(IDC)技术转型,以及超高密度存储技术代表着未来的方向“。 而目前数据存储介质已经无法适配目前便捷、大规模的数据生产,主要包括: DNA存储是什么? DNA存储定义 DNA存储技术,是基于组成DNA的四种碱基(A、C、G、T)来映射0和1,通过信息编码来进行存储。 相对传统介质(如硬盘),DNA存储基于分子流存储信息流,加上它的非周期性晶体等结构特点以及生物属性,因此DNA存储极其稳定、存储密度高且可以超长期存储。 图2 DNA存储领域进入快速发展阶段(徐讯 研究员) (来源/“DNA数据存储”前沿论坛) 尽管DNA存储刚刚进入国人视野,但是早在1965年,其概念就已萌芽;2012年,DNA存储原理验证实现重大突破,紧接着霍夫曼算法、DNA喷泉码等算法的开发以及微软、华盛顿大学等机构的参与,快速推动了DNA存储的技术研发。 DNA存储主要包含6个步骤:编码、合成、存储、检索、测序、解码。 DNA存储核心技术——编码 其中,编码、合成及测序为DNA存储的核心技术,重难点是编码与合成,载体包括电化学芯片设计等。 DNA编码的本质是将代表的信息原始数据1和0转换成组成DNA分子的碱基序列的过程。其中,碱基指腺嘌呤(A),鸟嘌呤(G),胞嘧啶(C)和胸腺嘧啶(T),是核酸的主要成分,他们在DNA分子内以互补配对原则稳定存在。 图3 DNA数据存储使用的四种转码方法举例 (来源/GigaScience) DNA编码方法有很多种,以George Church早期最简单的模式为例,将00分配给A,将01分配给T,将10分配给G,将11分配给C。使用这种编码方案,数字串0110110010将由碱基TGCAG编码并合成。 目前,DNA编码算法有Spiderweb算法、四进制Huffman直接编码法等;编码系统有:华大的YYC双阴阳编码系统、中科碳元的“悟空”编码系统等。 DNA存储核心技术——DNA合成 DNA合成是DNA存储重要步骤之一,合成方法有三种: 图4 DNA人工合成技术(谢思佳 资深工程师) (来源/“DNA数据存储”前沿论坛) 近年来,市场正逐步开发支持化学合成DNA的新工具和技术,例如电化学芯片合成法、喷墨打印合成法、微流体系统和数字光刻技术等,这些新工具和技术决定了合成序列的长度、生产速度和成本等。 DNA存储核心技术——DNA测序 不同测序技术有其优劣势,目前以Illumina、MGI、Thermo Fisher三家厂商的NGS测序仪;纳米孔单分子测序仪方面以PacBio和Nanopore为主,国内的齐碳科技明年即将量产。 DNA存储核心技术——解码 DNA解码与编码相对应,部分技术中需要检索。原理如下(以化学合成为例): DNA存储的应用和产业培育 由于超高密度、极其稳定、超长期存储等特点,同时基于分子流代替介质存储信息流,DNA存储能够真正实现BT与IT的融合,其中BT包括分子材料、分子诊断、基因治疗、生物安全等;IT包括通信、存储、算法、DNA计算等。因此被相关专家认为是变革性技术之一。 DNA存储的应用还在早期,但是由于以上技术特点,以及BT和IT领域的融合,有极其广阔的应用空间。根据与会专家病毒所刘翟研究员介绍,包括: 尽管应用还在早期,但是随着头部IT及BT机构的参与,以及近年来技术(主要是编码技术以及合成技术)迭代,产业方面正在快速孕育。 国内DNA初创机构中科碳元获得千万元投资,2021年,微软连同Illumina、西数等机构成立了DNA存储联盟,其中成员DNA Script近期获得2亿美元融资。 DNA存储的发展趋势 由于DNA存储技术发展尚在早期,仍有很多问题未解决,根据与会专家清华大学汪小我教授介绍,包括: 其中,成本高是最核心的难点,也是影响产业发展的关键。短期是合成成本,与会专家提供的建议仿造NGS思路提高并行化和试剂研发。长期是算力成本,需要算法设计和资源投入,当然包括芯片设计,需要分布走(根据北大钱珑助理研究员、华大生命科学研究院徐讯研究员等与会专家观点): 20年间,DNA测序经历了7个数量级的成本降低,正快速应用于医疗服务和新药研发等方面。与会专家表示,DNA合成技术降低5-8个数量级,将从根本上推动DNA存储的转化应用;当然,还需加以信息编码、信道、算力等方面的共同协力,将科学家的梦想照进未来数字技术的现实,展现国际竞争力。 由于能力和篇幅局限,以上信息有所不足的地方敬请指正补充。我们将收录到即将发布的《DNA存储蓝皮书》,欢迎存储、算法、IT、通信、合成等相关企业参与蓝皮书合作。 同时,欢迎大家在评论区提出对DNA存储的需求及趋势展望,精选留言者将有机会获得将在今年发布的《2022基因行业蓝皮书》纸质版一本。 (注:以上内容未经与会专家审核,仅供学习参考。) |
|
来自: 刘得光3p6n6zqq > 《基因组》