陳建華
信息保存對人類和社會的發展非常重要。目前信息保存最久遠的方式是結繩和雕刻,正因為如此,我們能一睹古代的石刻、甲骨文和金文。雕刻受限于保存信息密度低、種類少的缺點,此后演化出了簡牘、帛、紙張和書籍。不過,紙張壽命不過千年,且對儲備條件和儲備空間要求較高。發展到信息時代,人們將資料保存在磁帶、磁盤、硬盤、服務器和云端。上世紀末以來,以硅基為基礎材料的硬盤成為存儲介質的主流,簡稱為“硅基存儲”,其長期保存涉及定期數據備份及持續電力與存儲空間等投入,成本巨大。
從社會和自然界發展歷程看,最天然和最長久的信息保存方式存在于生命之中。人類、動植物、微生物繁衍億萬年,都遵循由DNA(脫氧核糖核酸,以下“核酸”)控制的生命中心法則:DNA包含的四種堿基(ATCG)的排列組合構成基因,控制著生命體的生存、健康與繁衍。人體40萬億個細胞幾乎都含有完整的基因組(約60億個堿基),這是每個人與生俱來、最為重要的生命信息。人們可以將基于0和1的二進制數字信號,轉化成以核酸堿基ATCG為基礎的四進制生命信號。通過合成相應的核酸,將信息以碳基形式完整地保存億萬年。若需讀取,只需要進行核酸測序即可。這一方式,行業內稱為“DNA存儲”,相對于硅基硬盤可簡稱為“碳基存儲”。
硅基存儲造價低,但保存成本高且年限不長,摩爾定律邊際效應減弱。碳基存儲造價高,但保存成本低且年限長,開始進入摩爾定律加速期,未來應用前景可期。
在數據的KB、MB、GB、TB、PB、EB 六個階段,硅基存儲未能滿足EB階段海量數據存儲的需求。碳基存儲是較有前途可供選擇的技術路線之一,這是一個新興科學領域(圖1)。根據我在深圳華大生命科學研究院考察調研和工作實踐體會,基于我國在DNA合成、檢測和時空組學技術方面的領先能力,建議國家盡快組織開展DNA存儲產業布局,以確保我國在這一領域始終保持并跑和領跑的地位。

圖1 碳基存儲的基本技術流程說明①
DNA存儲作為新興概念,是由DNA高通量合成與測序技術催生的信息與生物相融合的新領域(圖2),通過DNA分子的堿基序列直接編碼數字信息,由高通量合成技術合成序列進行信息寫入,并利用高通量測序技術實現信息的讀取,以實現存儲數據的信息還原,近年受到廣泛關注。DNA存儲的早期研究,國外在上世紀90年代已有所涉及,但DNA數字存儲概念是由美國哈佛大學教授 George 于 2012 年在Science正式提出[1]。自此DNA 數字存儲成為新興領域。2020年11月微軟聯合15家機構成立DNA數據存儲聯盟,就算法、合成、測序進行全面合作[2],加速生物技術與信息技術的融合發展。

圖2 DNA存儲系統的數據“寫入與讀出”及上下游關鍵技術及瓶頸②
近年也出現了基于DNA 折紙等自組裝技術,通過構建微納米結構體,利用其控制的金屬物質空間排布構建DNA電路,然而其本質上不能在堿基序列上直接存儲信息,且依賴于超分辨率顯微鏡等精密設備進行讀取,與可形成百萬比特信息量存儲的主流技術相比,該技術尚不成熟,缺乏技術普及與廣泛應用的基礎。另外,也有團隊提出利用DNA分子的電性質存儲信息,然而其主要利用DNA的加工技術形成DNA電路,領域內一般認為這并非真正意義上的DNA存儲。因此在高通量DNA合成和測序技術支撐下的DNA堿基序列存儲數字信息技術是該領域的主流。
目前DNA存儲通用流程一般為:一是將數字文件中二進制信息提出,轉換為DNA 編碼;二是將DNA編碼序列進行合成寡聚核苷酸引物庫 (Oligonucleotide Pool)或 DNA 片 段 (DNA Fragment)形式;三是選擇合適載體(體內/體外)將合成的DNA序列進行存儲。合成的序列一般由數據區、索引區及引物區組成,需要高度保真時,還可加入糾錯編碼。讀取時利用測序獲得序列信息,根據編碼方法進行相應解碼。

圖3 DNA存儲通用流程③
2012年至今DNA存儲的各項研究及成果均集中在編解碼算法開發和介質研究方面,也有個別報道涉及端到端全流程自動化的DNA存儲儀器。但全球范圍內DNA 存儲理論研究尚屬空白,也缺乏系統性的體內、體外DNA 存儲研究,集成化DNA 存儲設備亦效率極低。因此,可以將DNA存儲理論研究作為切入點,在理論指導下進行體內外介質研究,充分利用DNA合成與測序技術的新突破,進行DNA全流程的集成,逐漸形成小型化、自動化的DNA存儲設備。
深圳華大生命科學研究院自2016 年起在DNA存儲領域進行了戰略布局與項目投入,已申報基于“活字印刷”“陰陽”雙編碼DNA存儲體系的國際專利。北京化工大學研發的SED3B自偵錯編碼系統實現了細菌體內的存儲,理論上可保存萬年。中國科學院深圳先進技術研究院合成基因組學研究中心研發的“將數據進行生物存儲及還原的方法”建立了生物體存儲的“數據-DNA”編碼方法。天津大學于2021年初實現基于人工染色體的細胞內DNA存儲。蘇州泓迅生物科技股份有限公司申報了兩項相關國內專利,對應文本文件的DNA存儲編碼及通用DNA存儲的簡單編碼。綜上所述,我國DNA存儲研究在編碼系統開發方面與國外同行基本處于并跑水平,其中以華大為代表的“陰陽”雙編碼系統及適配的數據寫入(即高通量合成技術)與數據讀出(即DNA檢測和時空組學技術等)等方面處于領跑水平。
當今世界,隨著大數據的發展,傳統存儲介質,如磁帶、光盤、硬盤等逐漸不能滿足現有數據存儲的迫切需要。有報道稱,2020年世界范圍內的數據中心僅能滿足50%的存儲需求。同時,數據中心也占用了大量的電力和資源。面對海量數據無處可存的窘境,尋找新型存儲介質和存儲技術迫在眉睫。DNA分子作為一種新型信息存儲介質,在存儲密度、復制與維護成本、存儲壽命等方面都具有顛覆現有信息存儲技術的巨大潛能。利用DNA進行信息存儲,不僅可以解決目前資源緊迫的問題,還可以減少運營成本,形成綠色的可持續發展存儲體系。
DNA存儲雖然有明顯的優勢,但和傳統硅基存儲相比,它依賴于上下游的關鍵技術,即高通量DNA合成與測序技術。受限于此,與硅基存儲等相比,讀寫速度慢(相差約6-7 個數量級),成本高(相差約6-7個數量級)。因此,目前的體量較小,已知最大的存儲體系僅在數百MB級別。同時,由于DNA分子的生化特性,在某些情況下序列不易合成和測序,給實際應用帶來了一定的困難。除此之外,DNA存儲體系的隨機讀取技術仍處于起步階段,因此在文件歸檔的查詢等存儲系統的基本功能方面還需進一步研究。目前市場上尚無成熟的商業DNA存儲產業,但已有部分歐美科技公司以DNA存儲作為未來產品并獲得了投資。去年以來,基于在深圳華大生命科學研究院的調研,該領域研究進展基本遵循“摩爾定律”,已在提高讀寫速度和降低成本方面取得重大進展,近期的差距有望減少至2-3個數量級。如果國家加以扶持,若干年內有可能再減少1-2個數量級,將進入大規模數據中心應用階段,數據保存成本將大幅度降低,保存年限將大幅度提升,應用前景十分廣闊。
我國在DNA存儲領域的研究起步較晚。近年盡管科技部在該領域進行初步布局,但仍然停留在學術層面,與產業方向的結合相對匱乏。對DNA存儲相關技術進行技術研究與戰略布局,對歷史重要資料的備份進行應用示范,有助于我國在該領域實現技術突破,在存儲技術的國際競爭中占領制高點,且DNA 存儲在信息長期存儲、數據歸檔等方面亦具有國家戰略意義。
基于上述分析,建議科技部牽頭,組織開展DNA存儲產業布局。
數據安全在信息技術和DNA存儲技術中都是十分重要的一環。無論從個人隱私安全,還是特殊應用場景的角度來看,數據安全性都是存儲系統必要的模塊。建議通過編碼學、信息學的共同協作,通過開發新的數學模型,建立DNA存儲的數據安全體系并不斷完善,挖掘DNA存儲的生化特性,開發依靠數學方法的DNA存儲安全技術,同時牽頭制定相關國內國際標準,提升DNA存儲領域話語權。
DNA存儲依賴于上下游DNA高通量合成與測序技術,實現DNA 存儲技術的全面自主可控。通過上下游兩端,即擁有自主知識產權的合成與測序技術有機銜接,進行各階段技術模塊的集成,設計以多類型DNA存儲介質為中心的新型海量、長程、高密度存儲集成系統,實現從起端(合成)到終端(測序)的多類型數據隨存隨取及對多種典型復雜環境進行災備模擬,實現相應DNA存儲數據災備存儲的應用示范。建議通過DNA存儲比特-堿基轉碼方案,與上下游技術進行串聯,實現DNA存儲的自主技術閉環。針對DNA存儲的數據寫入過程(即DNA合成),進行合成過程安全管控能力的建設,進行具備不依賴國外技術的全自主高通量合成能力的戰略布局。
充分發揮IT、人工智能等方面的優勢,通過促進IT與BT產業的深化合作,以DNA存儲為切入點,結合新基建,將“干”的信息系統與“濕”的生化檢測系統結合,形成基于我國自主研制的新一代高通量合成儀器、測序儀器的的生化實驗室產業示范,布局建設全球首個規模化基地式DNA存儲數據中心,形成規模化DNA大數據存儲產業鏈,促進生物技術與信息技術的有機結合,實現DNA存儲在社會、經濟、文化、生活等方面的場景應用,支撐我國大數據行業的發展。
注釋
①②③圖片來源:深圳華大生命科學研究院。