来源:中国生物技术网
天津大学元英进教授团队从头编码设计合成了一条长度为254,886 bp、专用于数据存储的酵母人工染色体,借助无线通信中前沿的纠错编码将两张经典图片和一段视频存储于高效组装的人造染色体,利用酵母繁殖实现了数据稳定复制,用便携式的三代纳米孔测序器件实现了数据快速读出与无错恢复。
从医学图像与天文观测,从视频监控到社交网络,全球数字化趋势使得数据量快速增长。据国际数据公司估计,到2025年全球数据总量将达到惊人的175 ZB(1 ZB ≈ 109 TB)。面对快速增长的海量数据,基于磁、光、电等的传统介质的存储技术面临功耗、体积以及使用寿命等限制。
近年来,随着合成生物学的快速发展,DNA信息存储由于其高信息密度与低能耗处理等特点,成为应对数据存储发展挑战的新机遇。2021年1月,美国半导体产业协会(SIA)发布的《半导体10年计划》,已将DNA数据存储列为未来海量数据存储的重要选项。
人工染色体示意图
天津大学元英进教授带领跨学科团队,借助团队在酵母人工基因组化学合成领域的积累,设计合成了一条存储数字信息的酵母人工染色体,存储了两张图片及一段视频,并实现了数据的稳定复制与快速可靠读出。该工作首次将单菌内用于数据存储的DNA碱基数量提升到了百kbp级,容纳数据量为37.8 KB。日前,该研究以“An artificial chromosome for data storage”为题在线发表于《国家科学评论》(National Science Review, NSR)。天津大学微电子学院青年教师陈为刚副教授、化工学院博士研究生韩明哲以及周见庭助理研究员为论文共同第一作者,元英进教授为论文通讯作者。
人工染色体中存储的两张经典照片:1968年12月24日阿波罗8号机务人员威廉·安德斯拍下的“地球升起”(jpg;4029 Byte)和1957年Harold Edgerton首次结合高科技频闪灯与相机快门拍摄的“牛奶皇冠”(jpg;6624 Byte)。
人工染色体中存储的视频“母女”(一个通信领域常用的测试视频;mp4;26,092 Byte)
研究者从染色体的编码设计、组装与稳定复制、数据可靠恢复等方面展示了这种数据存储模式的潜力。
染色体的编码设计中,借助叠加伪随机序列应对三代测序的插入/删除(insertion/deletion)错误,采用现代通信中已广泛验证的低密度奇偶校验(Low-Density Parity-Check,LDPC)码纠正替代错误,实现了纳米孔测序高达10%错误率的数据可靠恢复。
染色体组装与稳定复制方面,设计插入一定数量的酵母自主复制序列(autonomously replicating sequence,ARS),提升的染色体稳定性,支撑高效组装和稳定复制。实验验证染色体稳定复制100代,依然能可靠读出数据。
数据读出过程中,利用三代纳米孔测序在大约10分钟获得足够的原始读段后,结合研究者设计的生物信息学与纠错译码混合流程,原始图片及视频可以从高错误率约10.79%的原始读段中可靠恢复,所需测序覆盖度仅为16.8x。
数据存储工作流程
该存储模式中,数据逻辑密度(包含载体)为1.19 bit/bp,与目前文献中指标最高的四进制编码DNA喷泉方案相当(Erlich and Zielinski, 2017)。文章进一步指出了该存储模式与传统光盘存储的相似性,也即一次写入,多次读出,低成本可靠复制和便携式读取。作者还提及了降低合成成本、构建多条人工染色体存储更多数据的可行性。
论文链接:
https://doi.org/10.1093/nsr/nwab028
未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。
如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”