早期的计算机有没有磁盘(像计算机磁盘一样工作的)
早期的计算机有没有磁盘(像计算机磁盘一样工作的)存储数据还需要庞大的数据中心,这些数据中心使用大量能源来保持凉爽——这在容易发生能源危机的世界中并不理想。这个问题被认为很重要——例如,美国政府于 2019 年启动的分子信息存储 (Mist) 计划旨在寻找替代当今庞大数据存储设施的替代方案。我们产生的大部分数据都以 1 和 0 的形式存储在硬盘等磁带上,但这远非理想的解决方案。一方面,去磁是一个大问题——随着时间的推移,永磁体逐渐失去磁场,因此为了可靠地保存数据,每隔几年重写一次硬盘驱动器非常重要。“它平均持续 10 到 20 年,如果幸运且条件完美,可能会持续 50 年,”Zielinski 说。存储在 DNA 中的信息定义了人类(或任何其他物种)的定义。但许多专家认为,它提供了一种极其紧凑、耐用和持久的存储形式,可以取代许多不可靠的数字媒体形式,这些数字媒体经常失效,需要大量的能量来存储。与此同时,一些研究人员正在探索我们可以永久有效
“当您将 DNA 存储在冰箱中时,您就知道自己是个书呆子。”
在她位于巴黎的家中,法国国家健康与医学研究所人类基因组学高级科学家 Dina Zielinski 将一个小瓶放在她的笔记本电脑摄像头上,让我在视频通话中看到。很难辨认,但她告诉我,我应该能够在小瓶底部看到一层几乎清晰、浅色的薄膜——这就是 DNA。
但是这个DNA很特别。它不存储来自人类基因组的代码,也不来自任何动物或病毒。相反,它存储博物馆的数字表示。“这将很容易持续数十年,甚至数百年,”Zielinski 说。
在对人类基因组进行测序、合成 DNA和开发基因疗法的努力之后,在过去十年中,关于如何在 DNA 链中存储数字数据的研究呈爆炸式增长。科学家们已经将电影、书籍和计算机操作系统编码到 DNA 中。Netflix 甚至用它来存储其 2020 年惊悚系列Biohackers的一集。
存储在 DNA 中的信息定义了人类(或任何其他物种)的定义。但许多专家认为,它提供了一种极其紧凑、耐用和持久的存储形式,可以取代许多不可靠的数字媒体形式,这些数字媒体经常失效,需要大量的能量来存储。与此同时,一些研究人员正在探索我们可以永久有效地存储数据的其他方式,例如将信息蚀刻到极其耐用的玻璃珠上,这是对洞穴绘画的现代诠释。
但是这些数据真的能持续多久,我们真的可以依靠它来存储人类现在为后代生产的海量数据吗?
随着我们走向一个越来越数字化的世界,我们对数据的依赖正在飙升。电影、照片、网页、商业文件、重要的安全记录——我们使用的一切都是数字化的,而且我们使用得越来越多。
我们产生的大部分数据都以 1 和 0 的形式存储在硬盘等磁带上,但这远非理想的解决方案。一方面,去磁是一个大问题——随着时间的推移,永磁体逐渐失去磁场,因此为了可靠地保存数据,每隔几年重写一次硬盘驱动器非常重要。“它平均持续 10 到 20 年,如果幸运且条件完美,可能会持续 50 年,”Zielinski 说。
存储数据还需要庞大的数据中心,这些数据中心使用大量能源来保持凉爽——这在容易发生能源危机的世界中并不理想。这个问题被认为很重要——例如,美国政府于 2019 年启动的分子信息存储 (Mist) 计划旨在寻找替代当今庞大数据存储设施的替代方案。
“我们实际上已经用完了硬件。我认为这个行业无法真正跟上生产足够的硬盘和服务器来存储所有这些数据的速度,”Zielinski 说。
但我们真的需要保留所有这些数据,并保存这么长时间吗?
人们出于多种原因希望长期存储数据。一是科学——研究人员正在产生前所未有的大量数据,而且他们拥有的数据越多越好。例如,位于法国和瑞士边境的欧洲核子研究组织(Cern)的大型强子对撞机(LHC)等射电望远镜和粒子加速器会产生大量数据,而科学家们希望保留所有这些数据,在洛斯阿拉莫斯国家实验室从事 DNA 存储工作的计算机科学家 Latchesar Ionkov 说。仅大型强子对撞机每年就产生 90 PB(9000 万千兆字节)。
麻省理工学院生物工程教授 Marke Bathe 与人共同创立了初创公司 Cache DNA,以使生物分子可以广泛使用和使用。巴斯说,人类面临的全球威胁迫使我们保护人造信息,如艺术和科学,以及地球上所有生物的 DNA。“这样,如果生命要么在这里被重建,要么以其他方式从其他行星转移或输入等等,就会有我们所做的事情和我们拥有的东西的记录,”他说。
许多 DNA 存储研究人员认为,他们已经找到了适用于广泛和难以置信的长期存储的完美存储介质。我们通常将 DNA 视为存储基因组信息的一种方式,但许多研究人员现在对存储大量数字数据的可能性感到兴奋,目前这些数字数据使世界各地的数据中心窒息。
Bathe 说,在这里 DNA 是一种自然的选择。“几千年来,大自然一直使用 DNA 以基因组的形式存储信息,”他说。“它已经存在了[数十亿年],你可以依靠它。只要它是一个物种的基本信息存储介质,比如人类,那么它就会成为我们知道如何处理的东西。”
Zielinski 说,将 DNA在过去 37 亿年左右的时间里得到优化的事实与真正始于 1950 年代的信息时代进行比较。“我们在人造技术方面已经取得了相当大的进步,但在效率方面它并没有比 DNA 好多少——当我们从一个细胞开始时,所有的指令都在那里指导每一个细胞,直到你达到几乎构成人类的 30 万亿个细胞。”
此外,Zielinski 说,我们可以从长毛猛犸象等百万年前的动物身上恢复 DNA 片段,并提供有关其基因组的有意义数据,这一事实表明 DNA 非常耐用。在保存完好的化石中,DNA的半衰期(降解一半所需的时间)约为 500 年,这意味着 DNA 将在大约 150 万年后完全不再可读。
然而,DNA 极其脆弱,导致石化的条件极为罕见。“有很多方法可以摧毁它,”伊利诺伊大学厄巴纳-香槟分校电气和计算机工程教授 Olgica Milenkovic 说。湿度、酸和辐射都会破坏 DNA。“但如果它保持寒冷干燥,数百年都是好的。”
更好的是,可以通过将 DNA 封装在玻璃珠等其他材料中来保护 DNA——模仿古代化石中遗传物质的保护方式。瑞士苏黎世联邦理工学院的研究员罗伯特·格拉斯和他的团队已经证明这些珠子可以保护 DNA 免受化学物质和热的影响。
将其放置在物理安全的地方可以提供进一步的保护。Milenkovic 说,将对人类至关重要的数据存储在冰库中封装的 DNA 中可能意味着“它可以永远持续下去,几乎可以”。
DNA 的另一个巨大优势是它存储的信息非常密集,在某种程度上是任何其他人造设备都无法比拟的。根据 Ionkov 的说法,到 2025 年人类将产生的估计 33 ZB 数据(即 3.3 后跟 22 个零)可以压缩成一个带有 DNA 存储的乒乓球大小。他认为在 DNA 中存储这么多信息可能仅仅需要几十年的时间。
与其他人造存储介质不同,DNA 存储也不太可能过时——“我们当中谁还在使用软盘?” 米伦科维奇问道。有了 DNA,我们应该总是能够阅读它。“对于每一种人造技术,你都需要一个新设备来阅读它,”Zielinski 说。“如果 DNA 已经过时,那么我们还有其他问题要担心。”
DNA存储还有其他好处。Milenkovic 指出,它已经搭载了医学科学研究,例如基因治疗和合成生物学,并且随着研究的进展,这将继续下去。它也将使用几乎没有能量来存储。
当然,也有巨大的挑战。正如2018 年的一篇论文所说,虽然 DNA “作为未来数据存储设备具有巨大潜力,但需要解决多个瓶颈,例如高昂的成本、极其缓慢的写入和读取机制以及易受突变或错误影响”。
将数字数据转换为 DNA 的过程基本上包括将其转换为 DNA 字母表。DNA 由四种称为核苷酸或碱基的分子组成:腺嘌呤 (A)、胞嘧啶 (C)、鸟嘌呤 (G) 和胸腺嘧啶 (T),它们以不同的序列以长串连接在一起。将数字信息转换为 DNA 代码的最常见方法只需将数字代码的 0 和 1 转换为这四个字母,然后合成 DNA 以进行匹配。
“例如,您可以使用 A 表示 00;T 表示 01;G 表示 10 和 C,11,”Milenkovic 说。“然后,您可以将任何经典存在于磁盘、磁带或闪存中的数字内容转换为四个字母的字母表。”
DNA 合成是2012 年和2013 年发表的两篇突破性论文使用的方法,每篇论文在 DNA 中存储了大约 700kB 的数据(之前的记录不到 1kB)。在2017 年的一篇论文中,Zielinksi(当时是纽约基因组中心的研究员)和她的同事使用这种方法在 DNA 上存储了一篇科学论文、一分钟的电影、计算机操作系统、计算机病毒和亚马逊礼品卡(总计约 2MB) .
当然,在 DNA 上存储大量数据的巨大障碍是成本,这远远高于将数据存储在服务器或硬盘上。存储这五个数字项目的成本为 Zielinksi 7 500 美元(6 729 英镑)。
Zielinski 补充说,DNA 存储的成本“有点像移动目标”,因为它取决于合成方法、编码方案以及解码方式。她说,通过排序进行编码和解码的合理估计约为每兆字节 (MB) 几千美元。
例如,要将这篇文章及其图片转换为 DNA,意味着最初将数据从大约 20MB 压缩到大约 500kB,应用编码方案,然后将其发送到实验室进行合成,成本约为 1 000 美元(897 英镑) )。实验室将使用一种在每条 DNA 链上一次添加一个核苷酸的技术,完成为我制作它的繁重过程。“最大的瓶颈实际上是合成 DNA,”Zielinski 说。“这是最大的焦点,降低合成成本。”
然而,产生的股线不需要是完美的。如果您将它用于数据存储而不是医疗程序——这是 DNA 合成最初开发的目的——可能对错误有更高的容忍度。因此,为更快、更不精确的合成方法打开了大门。“您可以处理数据中的错误并恢复您的文件。因此我们可以处理更加混乱的合成,”Zielinski 说。
Bathe 说,为了与普通数字媒体竞争,DNA 存储的成本必须降低大约一百万倍。这还有很长的路要走,但科学家们已经在努力增加可以同时写入的 DNA 分子数量。“如果你看看电子行业,他们已经看到了成本的降低,”Bathe 补充道。他说,DNA合成的成本已经大幅下降。
另一种完全避免合成的选择是将数据存储在经过简单编辑的天然 DNA 中的可能性。2020 年,Milenkovic 的小组编辑了大肠杆菌的DNA,以存储美国总统亚伯拉罕·林肯的葛底斯堡演说和林肯纪念堂的图像,方法是创建一个打孔卡系统来制造孔(实际上是使用基因编辑系统从核苷酸上划出小切口)例如 Crispr 和其他切口酶)在细菌的基因序列中。这最终可能比制造全新的 DNA 分子便宜得多。
“这是一种完全不同的范式——你不会将信息存储在 ATGC 组成的序列内容中,而是在双螺旋结构发生变化的情况下存储信息,”Milenkovic 说。她说,原始细菌成为代码的参考点,不需要合成,这意味着该过程应该更便宜,并避免与合成 DNA 相关的有毒副产物。
然而,这里付出的代价是可以存储在给定 DNA 链上的数据密度。“我们估计 [与 DNA 合成技术相比] 密度损失大约 50 倍。”
哈佛大学科学家在 2017 年报告了另一种将数据存储在 DNA 中的实验方法,该方法涉及将核苷酸片段喂入活细胞中已经存在的 DNA 链中,该 DNA 片段将 DNA 片段作为免疫防御机制。该团队将 Eadweard Muybridge 1878 年拍摄的一匹奔马的电影片段插入细菌中。“痕迹留在活的有机体中,”米伦科维奇说。只要该有机体存在,包括其后代,信息就会被存储——尽管随着时间的推移它可能会发生变异,从而改变信息。
***
因为我们可以从化石中提取数据,Ionkov 说,我们非常确定 DNA 存储可以持续很长时间。“所以一个有趣的问题实际上不是媒体和 DNA 分子会持续多久,而是我们能否在 1000 年后读取数据。”
Ionkov 的组织是一个名为DNA 数据存储联盟的组织的一部分,该组织正在研究如何确保我们能够在未来几个世纪解码数据。其工作组之一,Rosetta Stone Group,正在研究如何为如何阅读其 DNA 存储档案创建通用指南。
今天阅读 DNA 存在一些挑战。首先,您需要对其进行排序。这涉及使用常见的分子技术 PCR 来制作数万亿份您想要解码的 DNA 片段。不幸的是,这可能会导致错误。“当你将 DNA 解码回你的数据时,这些错误中的许多都可以在解码过程中轻松处理,”Zielinski 说。
接下来是排序本身,这里也有一个障碍。目前,测序是在台式机器上完成的,通常需要几个小时才能运行。所以这种形式的数据存储并不完全是一个快速访问系统。
可以改善这些等待时间的一件事是“随机访问” - 能够插入和取出数据以检索您正在寻找的内容,因此您不必对整个批次进行排序。这已通过在 DNA 链末端添加“条形码”在DNA 存储系统中得到证明。
然而,目前正在生产的 DNA 分子相当短——150 或 200 个碱基对——因此使用部分空间来通过条形码简单地识别 DNA 链会留下更少的空间来编写你想要存储的数据,Ionkov 说。“这是一个非常严重的问题。但是一旦技术变得更好,我们可以编写具有数千或数万个核苷酸[碱基对]的非常长的分子,这个问题就会开始消失。”
在另一种改善随机访问的方法中,Bathe 的团队将 DNA 链封装在二氧化硅珠子中,在珠子表面使用短链核苷酸进行标记。“就像您在超市对产品进行条形码识别以唯一识别它们一样,我们使用核酸对这些 DNA 小胶囊进行条形码编码,”Bathe 说。
目前还不清楚我们如何将存储在 DNA 中的信息整合到工作的计算机中。Bathe 的团队已经尝试为 DNA 创建一个文件系统。“这种将 DNA 信息的液态或固态转换成更类似于计算机硬盘驱动器的东西,你也可以使用像谷歌这样的搜索引擎来搜索它,”Bathe 说。甚至微软也在探索如何将生物分子整合到计算机设计中。
然而,广泛的 DNA 合成会带来风险。人们可以尝试用它来存储数据以外的其他东西。Zielinski 说,理论上,人们可以合成病毒或细菌,甚至可以制造某人的 DNA 并将其留在犯罪现场。“实际上,在许多这些管道中都有检查生成数据,他们将与已知基因组进行交叉检查,以确保其中没有任何真实的东西,没有有害的东西,比如病原体的序列,”她说。
Bathe 同意存在“巨大”的隐私问题和风险。他指出,许多公司正在寻求对地球上每个人的 DNA 进行分类。其他人指出,想象有人能够在一个小型数据存储系统中保存数十亿人的 DNA 序列是多么可怕。“我们需要围绕它构建技术,因为如果我们不这样做,我们将无法减轻或理解这些风险;它将是一个非常未知且不受控制的实体,”Bathe 说。
考虑到这一点,值得考虑 DNA 数据存储的替代方案。南安普顿大学光电子学教授 Peter Kazensky 创造了一种光学存储技术,他认为这是一个值得竞争的竞争者——它可以持续数百万甚至数十亿年,他说。
该团队使用飞秒(十亿分之一秒的百万分之一)激光写入 - 使用类似于眼科手术中使用的激光将信息蚀刻到耐用的石英玻璃盘上。强烈的短激光脉冲以特定方式聚焦,产生微爆炸,在玻璃上形成一个小孔。“我们发现在这些条件下可以形成非常微小的纳米结构,”Kazensky 说。“我们使用这些结构来编码信息。”
Kazenky 说,该过程类似于使用激光聚合物或染料烧录 CD 和 DVD 的过程——但这里的结构非常微小且非常稳定,可以承受至少 1000 摄氏度(1832 华氏度)的温度并且不受辐射损坏。“[我们的] 存储的一个优势,主要的一个优势是耐用性;它几乎可以永远持续下去,”他说。
该技术产生五个维度的信息——除了通常由孔创建的三个维度之外,还可以控制孔的方向和形状,从而实现更密集的数据存储。这种密度永远无法接近 DNA,但随着蚀刻层数的增加,它正在缓慢上升。
到目前为止,包括《世界人权宣言》、《大宪章》、《詹姆士国王圣经》和《银河系漫游指南》在内的文件都已使用该技术进行了存储。2018 年,埃隆·马斯克乘坐猎鹰重型火箭将艾萨克·阿西莫夫的科幻系列《基金会》蚀刻版送入太空,而微软则将 1978 年的整部超人电影保存在玻璃中。艺术家 Mika Tajima 甚至使用这种方法存储了“人类情感”数据——她收集并存储了 2020 年在日本发布的所有推文。
“我们使用的过程类似于古代人使用的过程——他们用工具在石头上做标记,”Kazensky 说。“这是材料的机械或物理变化。所以这种物理变化或在材料上打孔是一种非常古老的信息保护方式。”
与 DNA 存储类似,以这种方式存储数据的主要警告之一是写入速度。Kazensky 说,他的团队现在可以以每秒 500kB 的速度写入,而十年前最初的实验中最多每秒 0.1kB。“为了使其实用,您至少需要每秒一百万字节 (1 000kB) 的写入速度,”他说。另一个障碍是读取数据,目前需要使用光学显微镜手动完成。“为了让它变得实用,你需要制造一台可以采集样本、聚焦、移动和阅读的机器。”
用于蚀刻的设备目前也填满了一个房间,并使用 100 000 英镑(112 000 美元)的激光,尽管 Kazensky 认为可以降低尺寸和成本。虽然对温度和辐射非常耐用,但对于任何想要确保其寿命的人来说,将玻璃封装在坚固的东西中可能仍然是一个好主意——玻璃本身可以简单地用石头打碎。
“我认为蚀刻对任何环境条件都不那么敏感,”Zielinski 说。“所以它不像 DNA 那样密集,但它仍然是一种非常、非常有效的存储关键数据的方法,你当然可以少担心它。每个存储设备都有其机会和优点和缺点。我认为 DNA可以互补。”
其他研究人员正在寻求用于编码不涉及 DNA 的数据的分子选项,例如那些使用其他种类的合成分子链的人,这些分子链更容易合成且成本更低。例如,可以简单地通过控制单个分子的质量来创建代码,不同的质量代表 0 和 1 的不同组合。
我们已经有能力将数字数据编码成 DNA、封装并保护它数百年甚至数千年。这里真正需要注意的是选择使用哪些数据来执行此操作——或者如何克服 DNA 合成的瓶颈,以允许存储比我们迄今为止更多的数据。“我对用于存储数据的 DNA 感到非常兴奋,[但]我认为我们还需要 20 年,”Ionkov 说,尽管他指出一些公司相信他们将在五年内推出可行的产品。
Zielinski 认为,人类将在未来 5 到 10 年内开始使用 DNA 来存储不需要经常访问的冷数据,例如重要的财务记录或历史数据。我问她是否有一天我们可以在家中的设备上打印我们自己的 DNA。“当然,我认为这会在某个时候发生。”