DNA是個生物數據庫,存儲著我們體內的海量基因代碼。科學家發現,它的這種能力其實還可以用來存儲外部信息,一克DNA即能儲存上千億個千兆字節,相當于1000億張DVD光盤的內容。
近日,哈佛大學維斯生物工程研究所的研究人員將一本大約有5.34萬個單詞的書籍編碼到不到一沙克(億萬分之一克)的DNA(脫氧核糖核酸)微芯片中,連同文字一起的還有11張圖片和一段Java程序。這是迄今為止人類使用DNA遺傳物質儲存數據量最大的一次實驗,被刊登在最新《科學》期刊上。團隊負責人喬治·丘齊(George Church)表示,“今后,拇指大小的設備或許就能存下整個互聯網的信息。”
DNA存儲的“野心”
“利用DNA來存儲數據并不是一個新的概念。事實上,自從生物學確定了DNA結構,就有研究人員嘗試將其用于存儲和運算”,北京華大基因研究中心醫學事業部主任甄二真告訴記者。
他介紹,DNA由4種堿基組成,分別為A(腺嘌呤)、 C(胞嘧啶)、G(鳥嘌呤)及 T(胸腺嘧啶),它們兩兩互補成對出現,共同構成了相互纏繞的雙鏈螺旋結構。DNA可以被視為四位運算存儲方式,存儲量比二位運算存儲大得多。
“目前通用的存儲模式都是二位運算的。為了存儲更多數據,早已有科學家嘗試過使用物理方法實現四位運算。但是技術上難以實現,只能出現‘有’、‘無’、‘中間’三種狀態,也就是三位運算,無法實際操作”,甄二真說,與之相比,DNA是天然的四位運算,有四個不同狀態,與二位運算相比存儲量大、運算速度也快得多。
處于信息爆炸的時代,很多科學家嘗試以DNA存儲數據。比如今年初,臺灣國立清華大學和德國卡爾斯魯厄技術研究所以三文魚的DNA作為基礎,制造出單次寫入多次讀取的存儲器。不過,這個DNA存儲器的有效時長只有30小時。
甄二真表示,這些DNA無法長期存儲數據是因為研究人員使用的是來自活細胞的基因組,這些細胞不僅會死亡,而且還會分裂復制,對其中存儲的數據有致命性打擊。
合成DNA:改變存儲模式
為了排除細胞會死亡、分裂、變異而使數據內容發生改變的危險,丘奇率領的團隊避免使用活細胞,而是采用人工合成的DNA片段,并將片段用噴墨打印機嵌入到芯片上。
這一次,丘奇選擇存儲在合成DNA片段上的信息是他的著作《再生:合成生物學將如何改變未來的自然和自己》。首先,他把書中的圖片、文字、程序轉化為HTML格式的文件,再將其編譯為由 0和1組成的電腦能夠讀懂的二進制數據。隨后,這些二進制數據被轉化為四種堿基,即把0轉為A或 C,把1轉成G或者T,并將其建立在DNA雙鏈螺旋結構上來。
至于讀取數據的過程其實就是測序,通過DNA測序儀將DNA序列中的編碼按順序排列,還原為二進制格式的數據,用電腦“讀”出來。
盡管聽起來很復雜,甄二真表示其中重要一步就是將二進制數據轉化為4位運算數據(A、C、G、T),做成DNA鏈結構,這可以使存儲量按級數增長。而以經化學反應得到的合成DNA取代活細胞使得這項研究成果更符合現實意義。此前以細胞內DNA來存儲信息一直無法取得技術突破,只能在短期內保證數據安全,此次轉換思路是被《科學》認可的關鍵。
突破傳統存儲的極限
與目前流行的存儲方式相比,DNA存儲的最大優勢就是單位存儲量大。北京郵電大學信息與通信工程學院副教授陳光表示,現在使用的光介質和磁介質在存儲量上都幾乎達到了極限,這就需要研究其他存儲方式,比如DNA存儲這樣的生物介質。
他告訴記者,磁介質包括磁帶、磁盤、硬盤等。硬盤的存儲量可達上百G,但由于現在硬盤數據存儲密度提升的空間已經有限,基本不太可能出現單碟1000G的硬盤,所以如果硬盤體積不變,容量難以實現大幅突破。而CD、DVD等光介質存儲對表面積的要求更大,磁介質可以分幾層存儲數據,光介質只能單層平鋪保存信息,單位存儲量更小。
DNA可以很好地解決這一存儲量的問題。甄二真表示,這不僅與四位運算的特性有關,也與DNA特有的雙鏈螺旋結構有關。這一結構可以把DNA序列壓縮得足夠小,整個立體空間都可以利用,比磁介質和光介質的平面存儲更具優勢。按照哈佛團隊給出的數據,“一克DNA即能儲存上千億個千兆字節,相當于1000億張DVD光盤的內容”。
此外,合成DNA的穩定性也很優秀。陳光介紹,磁介質是建立在電磁的基礎上,工作環境受到限制,容易出現消磁等現象;而光介質受環境影響小一些,但耐久性不理想。與這兩者相比,合成DNA不存在細胞死亡、變異等影響,在室溫下很穩定,甚至可以存放數萬年而不變。
尚難大范圍應用
對于DNA存儲的前景,此項目另一位負責人瑟里拉姆·庫蘇里(Sriram Kosuri) 表示,隨著DNA合成、測序價格的不斷下降,這或許將成為長期存儲數據的一種選擇。而現階段,它距離商業化還很遠。
甄二真表示,不僅是成本問題,DNA存儲還存在控制難點。與二進制存儲相比較,磁介質0、1之間的轉換只需加磁、消磁即可實現,而光介質可以通過刻錄機將數據以“平地”或“坑洼”的形式燒寫在光盤上,這些都比較容易實現。而將數據“寫”入DNA則困難得多,難以做到“即時寫”,因此目前只有數據歸檔等用途。
同樣的,合成DNA相當費時。甄二真介紹,目前已經有自動合成儀可以將堿基連接起來,形成DNA序列,但是一般只能連接20到30對堿基,再長就難以實現了。此次哈佛團隊采用的也是短DNA序列來編碼數據。
與寫入數據費時費力相比,利用測序儀來讀取DNA存儲數據雖然速度也不快,但是甄二真認為,未來測序速度大幅提高相對容易實現,也就是DNA存儲有可能做到“即時讀”。
在陳光看來,有些應用對寫入數據的速度要求不高,只要讀取速度可以接受就行了。此外,作為生物介質之一,DNA存儲于人體更具“親和力”,較易與人體蛋白融合。未來有一天也許可以嵌入人體內工作,這時只需存入特定數據就可以了,存儲慢的問題就很好解決了。