分享

元英进院士:如何把酵母当CD,把敦煌壁画存入DNA保存千万年?(下篇)

 芳博士 2023-06-12 发布于福建

202342篇(共392篇)原创文章

4月末,有幸收到元英进院士邀请,到天津参加京津冀DNA存储前沿研讨会。
因上个月二阳后身体不适,公众号缓慢更新,很是抱歉。
元老师的报告内容丰富,我分成上、中、下三篇撰写“听讲笔记”。
元英进院士:为什么要发展DNA数字信息存储(上篇)
元英进院士:DNA数据存储是人类新文明的标志(中篇)》
行文过程中得到元老师亲自指导,他非常认真,我益匪浅,万分感激。
如有错漏之处,还是我个人的学识浅薄所致,文责自负,敬请指正。
本文主要介绍DNA存储研究实例和面临挑战。

1

实例:高可靠硬盘模式——1c㎡存储2亿部电影

元老师主持的项目,将开国大典视频、十九大报告的视频和文字(>3MB),存储进3微克的冻干粉内。
先把0-1数据块进行编码,然后分割为子块。
每个子块用一条长为96个碱基的链,把数据存储起来。
但链的数量太多了,彼此怎么“区分”?
我们就像看书加索引一样,索引也是ATCG的序列。两边再加引物,便扩增出来。
由此合成了4600w个碱基,形成寡核苷酸的合成池,存储进3微克的冻干粉。
读取时,选择pg级样品进行聚合酶链式反应(PCR),最终通过高通量测序,获取大量读段,实现数据修复。

按照这样的技术,存储密度为125PB/g=212.5PB/cm³,高于目前存储介质5-7个数量级
大家可以想象一下,一个方糖大小的存储介质(1cm³),可以存放212.5*1024个TB,即217600TB的信息。
假设一部高清电影需要1GB的存储空间,存储2亿多部电影,只需要1块“方糖”。

更多的内容,可以参考元老师团队的论文:
元英进*. 音视频文件的DNA信息存储. 中国科学· 生命科学, 2019, 49: 1–5.

2

实例:光盘模式——酵母也可当CD

大家都知道酵母有16条染色体,元老师课题组加了一条人工染色体,用于存储数字信息。
主要包括几个方面:
编码设计→合成组装→支持稳定复制→基于蛋白纳米测序读取。

酵母CD,采用具有纠错能力的编码方法,将图片及视频等数字化信息,转化成DNA序列,通过酵母体内一次组装,将序列和载体共同构建稳定的环状DNA,作为新型存储介质。
读取时,数据随酵母指数型快速扩增,只需要89个小时,全球每一个人都可以拥有一份存储在酵母CD中的数据副本。

美国纽约大学Jef Boeke院士在2015年酵母基因组合成国际联盟会议上明确指出:

天津大学开发的缺陷快速定位(PoPM)和精确修复方法,大大加速了整个酵母基因组合成国际计划的进展。

元老师团队的合成酵母染色体工作,“突破了目前在单个细胞内仅有几千个碱基的数据存储量——帝国理工Tom Ellis”。

因此,该工作荣获2017年中国科学十大进展的殊荣,并编入美国约翰·霍普金斯大学的BAG本科课程。

更多内容可阅读元老师的论文:

Yuan YJ* et al.,  (2021). An artificial chromosome for data storage. National Science Review, 8(5):nwab028.

Yuan YJ* et al. Science, 2017, 355: eaaf4706.   

Yuan YJ* et al. Science, 2017, 355: eaaf4704.

3

实例:将10幅敦煌壁画存入DNA

敦煌壁画是我国的文化瑰宝,但随着时间的流逝,因风化等问题造成的损毁严重。
只有运用先进科学技术提高保护水平,才能让这一世界文化遗产代代相传。
因此,数字敦煌的工作迫在眉睫。
元老师团队将10幅敦煌壁画,编码成为21万条DNA寡核苷酸链,合成寡核苷酸池。
通过加速老化实验验证,壁画的数据在实验室常温下可保存超过1千年,在9.4℃条件下,可保存2万年
DNA分子成为世界上最可靠的数据存储介质之一,可以让面临老化破损危机的人类文化遗产信息保存千万年甚至更久。
详情可见元老师论文:Yuan YJ* et al. Nature Communications. 2022

4

DNA合成突破的关键环节

序列合成,关键是成本通量合成速度
成本是阻碍商业化的重要因素。
目前,合成存储1MB数据,需要5万人民币。
也就是说,通过DNA存储一张照片都要好几万(手机里随手拍的照片精贵了吧)。

成本有希望降低么?有,但需要借助大规模生产技术的提升。
做个类比,原油大约3300元/吨,生产出聚乙烯7330元/吨。差价只有2倍多。
但为何生产聚乙烯还赚钱呢?因为用量大,催生大规模生产,就把成本降下来了。
我们再看单个碱基的成本,非常低。从单体到产品,有50-100倍的差距。
因此,需要科技工作者众志成城,把DNA存储成本降下来,用量提上去,进入可商业化的良性循环。

5

总结与展望

1. DNA存储是合成生物学与信息技术融合的典范。
借助高通量DNA合成与测序,有望满足不断增长的海量数据存储需求。
可以利用生物技术,应对半导体与信息技术面临的趋向极限的挑战。

2. 基于人工染色体的数据存储模式,完成了一种全新的DNA存储方式的概念验证,丰富了DNA功能研究的案例。

3. DNA存储存在合成成本高、读写速度慢、与现代存储系统融合等挑战。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多