分享

科学家团队升级DNA扩展字母表,称可提供DNA存储数据密度2倍提升,业内人士:DNA存储或可在10年内实现市场化

 生辉 2022-03-17

21 世纪,电子信息技术的快速发展为人类社会提供了更多记载、传递信息的方式,人们的工作、生活被大规模数字化,由电子信息技术构成的无形 “电网”,也正在从连接人与人、人与物向连接万物扩展。而万物互联的背后,无疑意味着更多信息的承载与传递,信息数据存储的需求也将与日俱增。

据互联网数据中心(IDC)预测,到 2025 年,全球信息数据总量将达到 175 ZB(泽字节),若要将 175 ZB 的文件加载到 1 TB 硬盘中,则大约需要 1750 亿个 1 TB 硬盘。届时硅基存储介质将面临巨大挑战。

面对急剧增长的海量数据,新的数据存储形式需求以及探索欲望愈加强烈。其中,在合成生物学技术深入发展之下,以数据存储密度高、保存时间长、维护成本低为核心优势的 DNA 存储在近年来引起了更多关注,已成为当前全球前沿研究领域之一。美国发布的 “半导体合成生物学路线图” 中提到,DNA 存储数据密度的潜力是硬盘、磁带等传统介质的 1 千万倍。

“相比机械硬盘 5-10 年的数据保存时间,DNA 存储在数据的长期保存上更有优势,例如有论文称在 10 摄氏度环境中,DNA 存储可以保存 2000 年以上。如果将 DNA 储存在活细胞内,信息就可以随着细胞的复制,长久地保存下去,可以极大降低信息复制和长期保存的成本,” 此前,国内 DNA 存储研究领域学者曲强在接受生辉 SynBio 采访时曾表示。

用 “0”“1” 重新定义 DNA


作为重要的遗传分子,DNA 凭借 A、T、C、G 四种碱基的排列组合即可携带大量遗传信息;充当数据存储的介质,将文字、图片、音乐甚至影片写入 DNA 并完整读取出来,已经在实验室中实现。

与目前广泛使用的大数据存储系统一样,利用 DNA 的数据存储过程主要涉及四大过程:编码、输入(DNA 合成)、读取(DNA 测序)和信息解码。大体来看,实现 DNA 数据存储的过程为将 A、T、C、G 四种碱基定义为 “0” 和 “1” 的组合(如将 A、T、C、G 分别对应为 “01”、“10”、“00”、“11”),如此,DNA 便可转变为一条二进制数字串,实现与现有数据存储系统的互通。

图 | DNA 数据存储整体框架(来源:[2])

或许,“DNA 存储” 对于大多数人而言仍旧是陌生的,但其实,利用 DNA 存储数据信息的概念早在人类发现 DNA 双螺旋结构之后的 20 世纪 60 年代中期已被提出。只是,受当时 DNA 合成和测序技术的限制,直到 20 年后这一概念才得到首次验证 ——MIT 科学家 Davis 将 35 bit 的生物艺术图像信息编码到 DNA 分子中,并成功读取出来。

1999 年,一种在纸上的 DNA 微粒子中隐藏秘密信息的方法再次验证 DNA 数据存储概念,自那之后,DNA 存储技术进入快速发展阶段。

约 10 年后,在 DNA 合成、测序技术取得巨大进展的基础上,DNA 存储数据 “量” 的飞跃分别见刊于 Nature 和 Science:2012 年,美国著名学者、哈佛大学医学院遗传学家 George Church 及其团队报告,他们已将莎士比亚全部的十四行诗(659 KB 的数据)存入 DNA,他们采用的是 “2 对 1” 的对应关系,即二进制中的 “0” 对应 A/C,“1” 对应 G/T;2013 年,欧洲生物信息研究所(EBI)组长 Nick Goldman 团队将一段 26 秒的马丁・路德・金《我有一个梦想》演讲录音写入 DNA,数据大小为 739 KB。

经过 30 余年的探索和优化,DNA 存储的数据量从 35 bit 跃升至数百 KB 级别,实现了 105 的增长(1KB=8×1024bit)。

2021 年,东南大学团队将该校校训 “止于至善” 四个汉字 “翻译” 为一段 DNA 序列、存储在电极上,并成功读取出来。

然而,距离 DNA 数据存储技术更大范围地应用尚需在适用于 DNA 存储的编码、数据写入、测序方法等方面展开进一步探索。

升级 DNA 数据存储扩展字母表,称可使数据存储密度翻倍


现在,使用 DNA 进行数据存储的可行性已被证实,但目前整个 DNA 存储过程尚存在较多挑战,包括 DNA 合成成本高、数据记录延迟等。

对于 DNA 过程的 “数据输入” 过程 ——DNA 合成而言,通过化学修饰的 DNA 核苷酸扩展 DNA 存储介质的字母表,可有效增加 DNA 数据存储密度、提升合成速度。2019 年,美国科学家团队在 Science 上报告了其将 4 种天然核苷酸碱基和 4 种化学修饰的核苷酸碱基结合合成 DNA 的工作,并表示,根据这一方法他们实现了合成的 DNA 携带遗传信息密度的增加。

近日,伊利诺伊大学厄巴纳 - 香槟分校、贝克曼研究所研究人员组成的团队在 Nano Letters 上报告了一种专为 DNA 数据存储开发的扩展分子字母表,称可能实现 DNA 存储密度 2 倍左右的提升,以及降低数据记录的延迟,将为开发 DNA 分子记录工具提供新方向。

(来源:Nano Letters

该研究团队提到,虽然此前已有团队报道了用于合成 DNA 和 RNA 核苷酸的扩展合成字母表,但并未实现准确读取。而 DNA 存储技术属于对 DNA 编码、合成、测序的一整套操作流程,因此,一套扩展合成字母表要想用于 DNA 存储,就必须要与 DNA 编码、读取、测序过程紧密耦合。

对此,伊利诺伊大学厄巴纳 - 香槟分校、贝克曼研究所团队结合 4 种天然的核苷酸碱基和 7 种化学修饰的核苷酸碱基(下图 B1-B7)形成一个扩展的分子字母表。具体而言,利用这 11 种核苷酸碱基,该团队共生成了 77 种组合,并且他们的研究结果表明,利用广泛用于 ssDNA 测序、单分子化学研究的 MspA 纳米孔测序技术,可以准确区分这 77 种核苷酸组合。并且,使用 ONT 的 GridION 产生的原始电流信号,可以对天然和化学修饰的核苷酸组合进行高度精确的分类。

他们利用全原子分子动力学模拟对含有化学修饰的 DNA 双链进行稳定性分析显示,大多数化学修饰的核苷酸对 DNA 双螺旋呈现轻微的扰动。

该团队在上述论文中表示,他们的研究结果表明,这一扩展分子字母表可以实现 DNA 数据存储密度接近 2 倍的提升,同时提升数据写入的速度。他们认为,这将为 DNA 存储技术的发展提供一条新的有潜力的路径。

图 | 使用天然的和化学修饰的核苷酸存储 DNA 数据(来源:Nano Letters

中国海洋大学食品科学与工程学院梁兴国教授告诉生辉,“这些(增加化学修饰碱基的)研究给我们的启示是,从原理上看,任何由多个单元组成且合成序列严密可控的高分子都可用作 '分子存储’,相信单分子测序技术的发展,特别是非蛋白类的纳米孔测序会让很多链状分子的高效测序成为可能。但目前只有 DNA 可以人工合成任意序列,分子信息读取技术也一直围绕 DNA 来进行。”

DNA 合成 / 测序巨头入局,初创公司积极尝试


在科学研究不断取得积极进展的同时,利用 DNA 进行数据存储逐渐开始了产业化方向的尝试和布局,其中既包括 DNA 测序 / 合成领域的巨头,也不乏专注于 DNA 存储技术研发的初创公司,2015 年左右开始,专注于 DNA 存储技术开发的初创公司 Helixworks Technologies、Catalog、Iridia、Cache DNA 等成立。

产业布局推进之下,加速了 DNA 数据存储技术的探索和开发。其中,2016 年,微软与 Twist Bioscience 签订协议订购约 1000 万条 DNA 产品,用于测试 DNA 数据存储能力;2018 年 8 月,Molecular Assemblies 公司宣布已经实现利用酶 DNA 进行数据的存储和检索;Catalog 在 2019 年将 Wikipedia 英文版全部文本的 16GB 数据编码合成为 DNA……

(来源:Catalog 官网)

2020 年,微软、Illumina、Twist Bioscience 和 Western Digital 成立了 “DNA 数据存储联盟(DNA Data Storage Alliance)”,致力于创建和推广基于 DNA 作为数据存储介质的可以交互操作的存储生态系统。其官网提到,“我们最初的目标是提高人们对 DNA 数据存储技术以及这项技术保护数字遗产的巨大力量的认识。此外,随着对可行性 DNA 存储方法的更好理解,我们也考虑建议创建行业规范和标准,最终使可操作的基于 DNA 的数据存储解决方案结合到现有的存储结构中。”

目前,该 DNA 数据存储联盟成员包括 Ansa Biotechnologies、Catalog、DNA Script、洛桑联邦理工学院(EPFL)、Iridia、Molecular Assemblies、Quantum、Dell Technologies 等 50 家公司 / 高校 / 机构。

同时,国内对 DNA 存储领域的关注亦在升温。2021 年,DNA 存储技术出现在 “十四五” 规划布局战略性前沿性技术之列;这一年,国内最早一批尝试将 DNA 数据存储进行商业化探索的公司成立,包括密码子(杭州)科技有限公司、中科碳元 (深圳) 生物科技有限公司等。今年 1 月,密码子科技宣布完成数千万元 Pre-A 轮融资,凯泰资本和磐霖资本领投;2021 年 8 月,中科碳元在公司注册成立 3 个月后获得数千万元天使轮融资,英诺天使基金、中科天使、常见投资、沸腾创投等参与投资。

将率先用于 “冷数据” 存储


未来 5-15 年,中国科学家将在数据中心,手中拿着一管 DNA 告诉全世界,这里面记录的是当前全世界的数据。” 中国科学院院士樊春海曾在第 28 期的 “海上院士讲坛” 上如此描绘 DNA 数据存储的前景。

但不可忽略的是,在那之前,仍有诸多关键技术难题有待突破。比如如何设计适应 DNA 介质的编码、如何确定以何种 DNA 介质进行数据存储、以及如何更好更快地读取存在 DNA 中的数据等等。

“现阶段,限制 DNA 存储技术大规模应用的最大难题是信息输入需要人工合成 DNA,特别是信息量大时需要很长的 DNA 序列,因此必须由非常专业的公司大量精准化学合成 DNA,更不用说用户自己来输入 DNA 信息了。另外,每次读取也会造成对数据(DNA 分子)的干扰,而且必须使用专门的仪器和技术进行 DNA 扩增和测序解码,这一过程在现阶段的价格也很高。从目前来看,一方面 DNA 存储适合于长时间存储极其重要但很少用到的数据,另一方面可用于存储产品信息等少量信息。相信人类的智慧会很快让 DNA 存储技术实用化。”梁兴国表示,同时,他也相信未来人类可以开发出更为适合存储信息的分子。

国内研究 DNA 存储的重要学者之一、中国科学院深圳先进技术研究院先进计算与数字工程研究所研究员曲强曾公开表示,未来几年,DNA 存储有三个主要研究方向,一是高稳定、易保存的 DNA 存储介质,二是自动化控制的 DNA 信息存储软硬件一体化系统,三是高通量、低成本的信息映射与管理技术。

从 DNA 存储数据密度高、保存时间长、维护成本低的特点来看,DNA 更合适用于存储重要且无需经常访问的 “冷数据”。

对此,DNA 存储领域资深学者 Yaniv Erlich 曾在接受生辉 SynBio 采访时提到,在 2030 年之前,我们或许就能看到 DNA 存储的市场化,过可能不会面向个人用户,初期的使用者会是一些机构,主要用来存储那些冗长、重要的数据,如金融数据和档案资料等。

参考资料:
[1]https:///10.1021/acs.nanolett.1c04203
[2]http://www./pibbcn/ch/reader/download_pdf.aspx?file_no=20200224&year_id=2021&quarter_id=5&falg=1


-End-

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多