DNA存储,已经显示出在存储密度、寿命和能耗方面,超越当前基于硅的数据存储技术的潜力。
然而,通过从头合成将大规模数据,直接写入DNA序列,在时间和成本上,仍然不够经济实惠。
在此,来自美国亚利桑那州立大学的严浩、北京大学的张成、欧阳颀以及钱珑等研究者提出了一种替代的并行策略,可以使用预制核酸在DNA上写入任意数据。相关论文以题为“Parallel molecular data storage by printing epigenetic bits on DNA”于2024年10月23日发表在Nature上。
全球数据领域的快速扩展对大规模数据存储提出了迫切挑战,并急需更好的存储材料。受自然界中基因信息保存方式的启发,DNA因其卓越的存储密度和耐久性,近年来被认为是数字数据存储的有前途的生物材料。
在当前的DNA存储中,数据通常被转码为核苷酸碱基序列,写入过程依赖于全新合成,即核苷酸按照预定顺序逐一添加。尽管全新合成技术在吞吐量和效率方面不断进步,但串行合成过程本质上限制了写入速度和合成DNA的长度,并阻碍了数据写入成本的大幅降低。
为了实现高效的DNA存储,必须寻找不依赖全新合成的替代数据写入方法,这些方法应能够并行且可编程地工作。实际上,已经提出了一些优雅的并行写入设计,例如通过结构编程的DNA载体实现并行写入,但结构不稳定和信息处理吞吐量有限等问题阻碍了这些方法的应用。
相比之下,在人体细胞中,表观基因组在不变的基因组序列之上编码了稳定的修饰信息。同样,一个表观编码数据的系统可能足以在相同的DNA序列上实现长期信息存储。
然而,当前体外的表观遗传信息并行写入在数据选择性上不够灵活。因此,为了实现无合成的DNA数据存储,一个能够在通用DNA上编程任意表观遗传信息的框架是理想的选择。
另一方面,DNA自组装已经被广泛研究,并能够在纳米尺度上实现精确的分子编程。DNA序列编程使得在大规模上对超分子结构进行并行且精确的控制成为可能。
之前的研究展示了使用数千种DNA链条在一次反应中编程多微米交叉DNA结构和线框DNA多面体的能力。
在此,受到自然表观基因遗传继承和合成DNA自组装的启发,研究者开发了一种非传统的DNA数据写入框架,该框架基于DNA自组装指导的酶促甲基化,能够并行稳定地将任意表观遗传信息位(epi-bits)写入DNA模板。
通过自组装引导的酶甲基化,表观遗传修饰作为信息位,可以精确地引入到通用DNA模板上,以实现分子可移动型印刷。通过对有限的700个DNA可移动类型和5个模板进行编程,研究者在一个自动化平台上实现了大约275,000位的无合成写入,每个反应写入350位。
以复杂表观遗传模式编码的数据,通过纳米孔测序高通量检索,并开发了算法,每个测序反应可精细解析240个修饰模式。在表观遗传信息位框架下,60名缺乏专业生物实验室经验的志愿者实现了分布式和定制的DNA存储。
研究者的框架提出了一种新的DNA数据存储模式,它是并行的、可编程的、稳定的和可扩展的。这种非常规的模式为生物分子系统中的实际数据存储和双模式数据功能开辟了道路。
图1 epi-bit DNA存储示意图。
图2 选择性epi-bti写入的设计与验证。
图3 可编程DNA排版和并行epi-bit书写。
图4 通过一锅测序扩大外位数据存储和数据检索。
图5 利用epi-bits条形码实现高并行度的大规模存储。
图6 定制和分布式epi-bit DNA存储。
综上所述,随着DNA数据存储进入商业化的曙光,epi-bit框架展示了具有预制模块化的并行分子信息存储的潜在方向。展开了广泛的研究路线。例如,优化序列设计和甲基转移酶效率将实现稳健和精确的数据写入。
存储密度可以进一步增加,通过纳入各种DNA修饰与准确的检测方法相匹配。最后,结合DNA自组装辅助编程和无数的酶修饰,可以为实用和功能化的分子数据系统实现多样化的DNA存储和计算功能。
PS:对此,Nature期刊针对这项研究,特邀请 Carina Imburgia & Jeff Nivala两位研究者,以“‘Do-it-yourself’ data storage on DNA paves way to simple archiving system”为题,发表了评论文章。由此可见,这篇文章的重要地位。
原创文章,作者:zhan1,如若转载,请注明来源华算科技,注明出处:https://www.v-suan.com/index.php/2024/10/24/86ef61a553/