肖優明
在剛剛過去的2017年,微軟研究院宣布了未來三年內在數據中心內部建立DNA(脫氧核糖核酸)數據存儲系統的目標,至少在精品應用程序中存儲數據,系統的最終尺寸將與20世紀70年代美國施樂復印機相當。此外,微軟打算利用半導體合成遺傳材料對數字數據進行編碼,完善其DNA數據存儲和檢索系統。
一塊糖大小能裝下全球所有電影
用DNA這種生物材料來備份大量數據聽起來似乎有些奇怪,但其在極小空間中存儲大量信息的能力早在70多年前就已經得到了證實。20世紀40年代,奧地利物理學家埃爾溫·薛定諤就曾提出了一個可裝入非重復結構的遺傳性編碼腳本,他將這個非重復結構稱作“非周期性晶體”。薛定諤是量子力學奠基人之一,因發展原子理論獲1933年諾貝爾物理學獎。
美國生物學家詹姆斯·沃森與弗朗西斯·克里克從薛定諤的理論得到啟發,在1953年4月25日《自然》雜志上發表的一篇研究論文里提出了DNA分子結構的雙螺旋模型,引發了生命科學的革命性發展,獲得1962年諾貝爾生理學或醫學獎。
盡管核酸鏈在細胞中記錄信息已有數十億年歷史,但其在IT數據存儲中的作用直到五年前才得到證明。當時哈佛大學的遺傳學家將他的著作包括其中的插圖編碼進了不到5500萬條DNA中。該技術從此迅速發展起來,科學家現在已經能夠在1千克DNA中存儲多達2.15億GB的數據。
數據存儲容量是云技術全球增長的驅動因素之一。DNA作為數據存儲的一種方法之所以有吸引力,在于具備了兩大優勢。一是超大容量,作為全宇宙中最密集的存儲媒介,能解決現有數據信息指數級增長的大難題。如果編碼正確,DNA可以比目前使用的存儲技術更緊湊地存儲數百萬次的信息。研究表明,1立方毫米DNA能存儲的數據高達1018字節,1克DNA能容納455EB(艾字節,1艾相當于10億GB)數據,而5EB就相當于至今全人類的所有講話。這樣一來,全世界所有電影可以被“濃縮到”糖塊大小的體積內。
二是DNA存儲介質經久耐用,而磁帶和硬盤最多只能保存50年左右。如果脫水,DNA可以在幾個世紀以后可靠地保存信息,而不會發生閃存驅動器或硬盤驅動器硬件退化的風險。許多研究人員從哺乳動物和古人類骨骼組織提取重建出基因,足以證明這些DNA幾乎能永久性存活。
改進DNA合成效率取得突破性成果
DNA存儲系統進入實用仍然面臨兩大障礙,首先是成本。以現有合成DNA鏈的水平,將數據字節轉換成DNA代碼(即組成DNA的4個堿基)費力費時,成本很高。在微軟一項涉及近1350萬個DNA片段的研究中,購買這些DNA就花了80萬美元。微軟曾表示,只有將現有成本減低至萬分之一,DNA存儲才能獲得廣泛應用。
其次是將數據自動寫入DNA的水平還存在局限,有待提高。2016年7月,微軟研究院計算機設計師道格·卡米安和華盛頓大學計算機實驗室科學家路易斯·瑟茲攜手合作,成功利用DNA存儲技術保存了約200M數據,內容包括《戰爭與和平》等100部世界名著和音樂唱片等。卡米安推算,因寫入200M數據用了好幾個星期,寫入速度只有400字節/秒,距離微軟設定的100兆字節/秒相差甚遠。微軟表示,必須將存儲速度提高至100M/s,這項技術才有實用價值。
不少專家對微軟的目標持懷疑態度,認為即使能實現,DNA數據存儲系統也將僅局限于某些方面的使用,比如存儲法律文檔和醫療數據,難以取代當前的主流存儲方案。然而微軟高級研究員卡琳·斯特勞斯博士表示,雖然在DNA成為主流數據存儲解決方案之前,必須克服許多挑戰,但初步結果令人鼓舞。隨著需求增加,一切皆有可能。他指出:“數據存儲的需求以驚人的速度增長,需要存儲大量數據的組織和消費者(例如醫療數據或個人視頻)將受益于新的長期存儲解決方案,我們相信DNA可以提供這個答案。”endprint