Nature | 突破电子存储瓶颈:DNA信息存储的崭新篇章

全文3934字,阅读约需12分钟,帮我划重点

划重点

01北京大学的研究团队成功开发了一种利用预制短DNA模块进行数据存储的系统,实现了DNA像计算机一样以0和1的二进制编码进行数据保存。

02与传统的碱基编码方式不同,这种表观遗传修饰能够以化学方式对DNA进行标记,简化了DNA的合成过程,提高了存储效率。

03实验中,研究团队成功地将一幅汉代老虎拓片以及一张大熊猫在绿意盎然环境中的彩色图片编码进了DNA中。

04尽管这一新技术展现了巨大的潜力,但在短期内要与传统电子存储技术竞争仍面临巨大挑战,如高成本和低读取速度等。

05未来,若能实现模块化DNA片段的工业化生产,DNA存储的成本将会进一步降低,推动其商业化应用。

以上内容由腾讯混元大模型生成,仅供参考

图片

引言

DNA作为信息存储的天然媒介,数千年来在人类历史中发挥了至关重要的作用。从人类基因组的解码到各种生物信息的保存,DNA无疑是自然界中最有效的信息存储工具之一。它不仅记录了生物体的全部遗传信息,也为人类理解生命的起源和演化提供了重要线索。近年来,随着数字化信息量的指数级增长,传统的电子存储技术逐渐难以应对这一需求,这激发了研究人员对DNA在数据存储领域新功能的探索。其高密度的存储潜力使得DNA被认为是未来数据存储的最佳候选者之一。近期,一项创新的方法使得DNA能够像计算机一样,以0和1的二进制编码进行数据保存(10月23日NatureParallel molecular data storage by printing epigenetic bits on DNA”)。这项突破性的研究不仅显著降低了编码成本和时间,还为未来替代电子存储提供了可能的环保方案。

图片

DNA的存储潜力
DNA是一种紧凑且极为耐久的分子,其信息密度之高令人叹为观止。据估计,仅一克DNA就能够存储约1000万小时的高清视频内容。DNA的巨大存储容量和稳定性使其成为替代传统电子存储设备的理想候选者。相比于需要频繁更换且易受腐蚀的硬盘,若能有效避免水分和紫外线的影响,DNA可以在数十万年内保持稳定不变。这意味着,在保存人类历史、文化和科学记录等需要长期存储的场景中,DNA存储具有巨大的应用潜力。
DNA的存储能力不仅体现在其物理特性上,还在于它具有极高的冗余性和信息密度。DNA的四种碱基(腺嘌呤A、胞嘧啶C、鸟嘌呤G和胸腺嘧啶T)能够通过排列组合编码几乎无限量的信息,这种独特的能力使得DNA在理论上具备比任何现有存储设备更高的存储容量。此外,DNA的生物相容性也为其在生物医学、医疗信息存储等领域提供了可能的应用场景。

传统DNA存储的挑战
传统的DNA存储方式是将信息编码进DNA的碱基序列中。这种方式虽然可行,但其过程十分缓慢且成本高昂。碱基合成需要从头开始制造DNA链,这一过程复杂且成本是电子数据存储的数千倍。因此,研究人员一直在寻找更经济高效的DNA存储解决方案。除了高昂的成本外,合成DNA还存在一定的技术瓶颈,例如如何快速准确地将大量数据转化为碱基序列,以及如何确保在合成过程中DNA链的准确性。
此外,传统的DNA存储还面临数据读取速度的挑战。DNA测序技术虽然在近年来取得了长足进展,但与电子数据存储的读取速度相比,仍存在显著差距。合成与测序的效率瓶颈限制了DNA存储在大规模数据应用中的可行性。因此,研究人员一直在尝试通过新的方法来克服这些技术障碍,以实现更为经济且快速的DNA存储方案。

表观遗传的启示
为了解决上述问题,北京大学的计算合成生物学家钱及其研究团队将目光投向了"表观基因组"(epigenome)。表观基因组是指一系列用于调控基因活性的分子,这些分子不会改变DNA序列本身,但能调节基因功能。例如,甲基化(methylation)是典型的表观遗传修饰方式,通过向DNA中添加甲基基团来影响基因的表达。
图片
表观遗传学的原理为DNA存储提供了新的思路。与传统的碱基编码方式不同,表观遗传修饰能够以化学方式对DNA进行标记,而无需改变其基础序列。这种方法不仅简化了DNA的合成过程,还提供了一种可以直接在现有DNA基础上编码信息的途径。及其同事开发了一种利用预制短DNA模块进行数据存储的系统。这些模块有的附有甲基基团,有的则没有。在反应管中,这些模块可以像搭积木一样组装成一条DNA链,从而形成代表二进制代码的DNA序列。在这一系统中,DNA是否存在甲基基团代表二进制状态:有甲基表示"1",无甲基表示"0"
这种方法的巧妙之处在于利用了DNA化学修饰的可控性和可逆性,使得DNA的二进制编码变得更加直接且高效。这种编码方式降低了对专门合成DNA链的依赖,从而显著减少了存储成本,并使得存储过程更加快速和便捷。

简便的DNA数据存储
这一新型DNA存储方法的主要优势在于其简便性。由于使用了预制的DNA模块,整个系统可以更高效地进行批量生产,相比于为每一位信息单独合成DNA链,这大大降低了成本和难度。为了读取存储的数据,研究团队使用了一种能够检测DNA链上甲基基团的测序技术,并将检测结果解释为二进制代码。测序过程中,DNA链的甲基化状态被精确检测出来,从而将信息还原为原始的二进制编码,这一过程既快速又可靠。
这一方法的可行性得到了实验验证。在研究中,60名来自不同背景的志愿者使用该方法成功地将自己选择的文本存储进了DNA中。许多人起初怀疑该技术的可行性,但在看到读取的序列与原文本相符后,逐渐意识到这种技术确实可行。这种简便的存储过程也表明,未来DNA存储可以被广泛应用于日常生活中,例如个人数据的长期保存、重要文件的备份等。

成功存储图像信息
为了测试该技术的可行性和存储容量,及其同事成功地将一幅汉代的老虎拓片以及一张大熊猫在绿意盎然环境中的彩色图片编码进了DNA中。这些图像信息总共包含约270,000个二进制位(1和0),为未来进一步扩展该系统的应用提供了可能性。这一实验显示出DNA存储在处理复杂数据类型(如图像和多媒体文件)方面的潜力,这对实现更大规模的数据存储具有重要意义。

图片

利用表观遗传信息条形码(epi-bit barcodes)实现的大规模并行数据存储的过程和结果(Credit: Nature

大规模储存系统设计:图a部分展示了大规模表观遗传信息位(epi-bit)DNA存储的整体设计流程,包括多种DNA模板(L1至L5)的制备、自动化样品添加系统的使用、以及每次反应写入350位信息的能力。这些模板被与700种DNA活字条(movable types)选择性杂交,利用甲基转移酶(DNMT1)进行平行写入。
老虎拓片和熊猫图像的储存:实验中,首先将汉代老虎拓片的图像编码为16,833位信息,分配给48个条形码DNA载体进行储存(图b)。测序后的甲基化调用和条形码聚类分析表明,读取精度约为90.35%。通过动态聚类算法对数据进行分类,精度提高至93.60%,而后进一步通过位点选择策略排除低精度位点,最终使精度达到96.30%。
压缩和错误纠正编码:在熊猫图像的存储中,通过数据压缩和错误纠正编码,使最终存储信息达到252,504位。在恢复过程中,通过条形码聚类和位点优化后,整体读取精度达到了97.47%,并成功实现了图像的完整恢复(图f)。
平行写入的效率和准确性:通过多重DNA模板和活字条组合的方式,研究人员实现了高位平行的数据写入,并使用自动化液体处理平台,以约40位每秒的速度进行数据写入(图a(ii))。这些数据存储的流程和结果表明该方法在数据写入速度、精度和扩展性上的显著优势。

在此过程中,研究团队还评估了数据存储的准确性和完整性。结果表明,通过表观遗传编码的DNA数据能够在测序过程中精确地还原,未出现明显的错误或信息丢失。这种高保真的数据存储能力为未来DNA在各类数据存储场景中的应用奠定了基础。
北卡罗来纳州立大学的合成生物学家艾伯特·琼(Albert Keung)认为,由于该方法采用了预制的DNA片段,其在未来具备批量生产的潜力。相比于为每一位信息专门合成DNA链,这种方式更加经济实惠。研究团队的下一步将是扩大该系统的规模,以适应更大数据集的存储需求。未来,若能实现模块化DNA片段的工业化生产,DNA存储的成本将会进一步降低,从而推动其商业化应用

DNA存储的未来
尽管这一新技术展现了巨大的潜力,但在短期内要与传统电子存储技术竞争仍面临巨大挑战。目前,DNA存储的成本远高于电子存储设备。然而,随着技术的进步,研究人员相信DNA存储有望在未来成为一种可行且可持续的数据存储方案。DNA的耐久性和高存储密度使其在某些特定领域具备显著优势,例如档案保管、文化遗产保护以及需要长期保存的大数据存储等。
乔治亚理工学院的物理学家尼古拉斯·吉斯(Nicholas Guise)指出,全球数据生产量正急剧增加,而现有电子存储技术已经接近物理极限。DNA凭借其高信息密度和长久的存储能力,有可能成为解决数据存储瓶颈的关键。然而,要实现商业化应用,还需在降低成本和提高数据读取速度等方面取得突破。尤其是在大规模数据应用中,如何在短时间内实现高效的DNA读取和写入是当前研究的重点。
此外,DNA存储还面临着环境控制的挑战。虽然DNA在适当条件下可以保持数十万年的稳定性,但它对湿度、温度和光照的敏感性要求更严格的保存环境。因此,如何开发出高效且低成本的DNA存储保护措施,将成为未来DNA存储技术走向实用化的关键步骤。

表观遗传存储的优势与挑战
表观遗传学的概念为优化DNA存储提供了新思路。在这项研究中,利用甲基化标记区分二进制状态是一种颇具创造性的应用。通过这种方法,DNA不仅充当信息的载体,其化学修饰也成为信息的组成部分。这种结合使得DNA存储的灵活性和存储容量得到了显著提升。表观遗传修饰可以在不改变DNA序列的情况下,增加额外的信息层次,使得DNA存储更加多样化和复杂化。
然而,表观遗传存储也面临诸多挑战。例如,如何在大规模数据存储中保持甲基化修饰的稳定性,以及如何快速且准确地读取这些修饰,都是有待解决的问题。甲基化修饰的动态性和环境依赖性使得DNA的长期存储稳定性存在一定的风险。此外,虽然甲基化标记可以有效区分0和1,但在实际操作中,如何在大规模数据中保持高精度和高效率仍需进一步研究和改进。
另一项挑战是表观遗传修饰在不同环境下的可重复性和可控性。甲基化标记的添加和去除受多种因素影响,例如温度、酶活性和反应条件等,这使得在大规模生产中保持修饰的均一性成为一大难题。因此,如何优化表观遗传标记的应用,使其在各种条件下均能稳定存在和精确读取,是未来研究的重点方向之一。

DNA存储技术的发展为自然与技术的结合展现了无限可能。从碱基序列到表观遗传修饰,研究人员不断探索新的路径来实现数据的高效存储。尽管在商业化应用上仍面临挑战,但这一技术无疑是一个充满前景的研究方向。正如尼古拉斯·吉斯所说,我们需要颠覆性的技术来应对未来的数据存储需求,而DNA存储正是这样一种有望改变游戏规则的技术。随着技术的不断进步和成本的逐步降低,DNA存储有望在不久的将来成为解决全球数据危机的重要手段。



参考文献




责编|探索君

排版|探索君

转载请注明来源于【生物探索】