引言
DNA作为信息存储的天然媒介,数千年来在人类历史中发挥了至关重要的作用。从人类基因组的解码到各种生物信息的保存,DNA无疑是自然界中最有效的信息存储工具之一。它不仅记录了生物体的全部遗传信息,也为人类理解生命的起源和演化提供了重要线索。近年来,随着数字化信息量的指数级增长,传统的电子存储技术逐渐难以应对这一需求,这激发了研究人员对DNA在数据存储领域新功能的探索。其高密度的存储潜力使得DNA被认为是未来数据存储的最佳候选者之一。近期,一项创新的方法使得DNA能够像计算机一样,以0和1的二进制编码进行数据保存(10月23日Nature “Parallel molecular data storage by printing epigenetic bits on DNA”)。这项突破性的研究不仅显著降低了编码成本和时间,还为未来替代电子存储提供了可能的环保方案。


利用表观遗传信息条形码(epi-bit barcodes)实现的大规模并行数据存储的过程和结果(Credit: Nature)
大规模储存系统设计:图a部分展示了大规模表观遗传信息位(epi-bit)DNA存储的整体设计流程,包括多种DNA模板(L1至L5)的制备、自动化样品添加系统的使用、以及每次反应写入350位信息的能力。这些模板被与700种DNA活字条(movable types)选择性杂交,利用甲基转移酶(DNMT1)进行平行写入。老虎拓片和熊猫图像的储存:实验中,首先将汉代老虎拓片的图像编码为16,833位信息,分配给48个条形码DNA载体进行储存(图b)。测序后的甲基化调用和条形码聚类分析表明,读取精度约为90.35%。通过动态聚类算法对数据进行分类,精度提高至93.60%,而后进一步通过位点选择策略排除低精度位点,最终使精度达到96.30%。压缩和错误纠正编码:在熊猫图像的存储中,通过数据压缩和错误纠正编码,使最终存储信息达到252,504位。在恢复过程中,通过条形码聚类和位点优化后,整体读取精度达到了97.47%,并成功实现了图像的完整恢复(图f)。平行写入的效率和准确性:通过多重DNA模板和活字条组合的方式,研究人员实现了高位平行的数据写入,并使用自动化液体处理平台,以约40位每秒的速度进行数据写入(图a(ii))。这些数据存储的流程和结果表明该方法在数据写入速度、精度和扩展性上的显著优势。在此过程中,研究团队还评估了数据存储的准确性和完整性。结果表明,通过表观遗传编码的DNA数据能够在测序过程中精确地还原,未出现明显的错误或信息丢失。这种高保真的数据存储能力为未来DNA在各类数据存储场景中的应用奠定了基础。北卡罗来纳州立大学的合成生物学家艾伯特·琼(Albert Keung)认为,由于该方法采用了预制的DNA片段,其在未来具备批量生产的潜力。相比于为每一位信息专门合成DNA链,这种方式更加经济实惠。研究团队的下一步将是扩大该系统的规模,以适应更大数据集的存储需求。未来,若能实现模块化DNA片段的工业化生产,DNA存储的成本将会进一步降低,从而推动其商业化应用。DNA存储的未来尽管这一新技术展现了巨大的潜力,但在短期内要与传统电子存储技术竞争仍面临巨大挑战。目前,DNA存储的成本远高于电子存储设备。然而,随着技术的进步,研究人员相信DNA存储有望在未来成为一种可行且可持续的数据存储方案。DNA的耐久性和高存储密度使其在某些特定领域具备显著优势,例如档案保管、文化遗产保护以及需要长期保存的大数据存储等。乔治亚理工学院的物理学家尼古拉斯·吉斯(Nicholas Guise)指出,全球数据生产量正急剧增加,而现有电子存储技术已经接近物理极限。DNA凭借其高信息密度和长久的存储能力,有可能成为解决数据存储瓶颈的关键。然而,要实现商业化应用,还需在降低成本和提高数据读取速度等方面取得突破。尤其是在大规模数据应用中,如何在短时间内实现高效的DNA读取和写入是当前研究的重点。此外,DNA存储还面临着环境控制的挑战。虽然DNA在适当条件下可以保持数十万年的稳定性,但它对湿度、温度和光照的敏感性要求更严格的保存环境。因此,如何开发出高效且低成本的DNA存储保护措施,将成为未来DNA存储技术走向实用化的关键步骤。表观遗传存储的优势与挑战表观遗传学的概念为优化DNA存储提供了新思路。在这项研究中,利用甲基化标记区分二进制状态是一种颇具创造性的应用。通过这种方法,DNA不仅充当信息的载体,其化学修饰也成为信息的组成部分。这种结合使得DNA存储的灵活性和存储容量得到了显著提升。表观遗传修饰可以在不改变DNA序列的情况下,增加额外的信息层次,使得DNA存储更加多样化和复杂化。然而,表观遗传存储也面临诸多挑战。例如,如何在大规模数据存储中保持甲基化修饰的稳定性,以及如何快速且准确地读取这些修饰,都是有待解决的问题。甲基化修饰的动态性和环境依赖性使得DNA的长期存储稳定性存在一定的风险。此外,虽然甲基化标记可以有效区分0和1,但在实际操作中,如何在大规模数据中保持高精度和高效率仍需进一步研究和改进。另一项挑战是表观遗传修饰在不同环境下的可重复性和可控性。甲基化标记的添加和去除受多种因素影响,例如温度、酶活性和反应条件等,这使得在大规模生产中保持修饰的均一性成为一大难题。因此,如何优化表观遗传标记的应用,使其在各种条件下均能稳定存在和精确读取,是未来研究的重点方向之一。DNA存储技术的发展为自然与技术的结合展现了无限可能。从碱基序列到表观遗传修饰,研究人员不断探索新的路径来实现数据的高效存储。尽管在商业化应用上仍面临挑战,但这一技术无疑是一个充满前景的研究方向。正如尼古拉斯·吉斯所说,我们需要颠覆性的技术来应对未来的数据存储需求,而DNA存储正是这样一种有望改变游戏规则的技术。随着技术的不断进步和成本的逐步降低,DNA存储有望在不久的将来成为解决全球数据危机的重要手段。参考文献
https://www.nature.com/articles/d41586-024-03443-whttps://www.nature.com/articles/s41586-024-08040-5责编|探索君
排版|探索君
转载请注明来源于【生物探索】
End