

手機,讓我們可以一探事實究竟,暢享流媒體,瀏覽閱讀facebook和twitter資訊,聽音樂。然而這一切的數據都并沒有保存在你的手機里,它們躲在一個你不知道的地方,或許是世界另一邊。如今,像微軟,亞馬遜以及facebook這樣的大型公司通過磁帶或是其他傳統媒體儲存數據,但數據信息量巨大并一直維持著穩定的增長速度,不斷蠶食著數據儲存中心所剩無幾的空間。并且就算是性能極佳的儲存媒體數據儲存年限也至多只有短短幾十年,隨后就需要有新的接班人來代代延續未盡的使命。面對此困境,一些研究人員為我們指出了一條更優的出路——通過DNA儲存恢復數據信息。
DNA掌握著基因信息,基因指揮著生命體體內每一個細胞。DNA分子盤旋梯形結構的每一側都是由四個化學成分,即核苷酸A、T、C和G組成(A、T、C、G分別是英語術語腺嘌呤,胸腺嘧啶,胞嘧啶以及鳥嘌呤的簡寫)。它們之間不同的組合代表著不同的基因密碼。
如今電腦使用二進制儲存數據。路易斯·賽澤指出,數據同樣可以通過A、T、C、G這4個化學成分表達。賽澤是一名計算機工程師,現就職于西雅圖華盛頓大學,目前,他的研究領域是計算機與數據系統的設計與運轉。研究人員一次可以完成一個核苷酸組的構建,通過在實驗室里的重復操作,搭建出一條條人造DNA鏈。其中不同的核苷酸組合代表著不同的數字、字母以及其他電子信息。實驗室里的專門設備可以翻譯讀取這一條DNA鏈上信息。通過上述步驟,研究人員破譯出蘊藏的原始信息。
為何要如此大費周折呢?關鍵就在于DNA強大的信息儲存能力:DNA可以實現在極小空間內極大數據信息量的儲存。理論上來說,一條DNA鏈大小上與一小粒方糖相當,但信息儲存量卻與超級賣場沃爾瑪規模大小的一個數據儲存中心不相上下。此外,賽澤補充道,與傳統的磁帶所不同,DNA可以在未來幾千年的時間里完完整整地儲存這些數據。
早在幾年前DNA儲存數據的工程就已開啟。就在不久前,賽澤的團隊在上述方法流程中加入了叫做“隨機通道”,對原方法進行了進一步優化?!半S機通道”為尋找特定文件提供了捷徑。在這里,每一個數據文件都有自己專屬的“地址”,其工作原理可以打個這樣的比方:郵遞員通過地址上郵編、街道名和門牌號把郵件交給你,研究人員通過每個文件的專屬“地址”迅速找到目標文件。為此,研究人員要在每個儲存文件數據的DNA鏈上輸入它的專屬電子“地址”。
賽澤團隊中不乏微軟員工,其4月6日于佐治亞州亞特蘭大公布了在科研上的這項新進展。編程語言與操作系統結構性支持國際大會對其進行了具體詳細地展示。
PCR的引入
西雅圖團隊PCR來完成在海量DNA信息中找到特定的文件的任務。PCR是聚合酶鏈反應的簡寫。PCR工作原理是這樣的:將DNA同一連串被稱為引物的寡鏈核苷酸一起進入試管。每一個引物與特定DNA鏈末尾中的儲存文件位置相匹配。試管在專門儀器一遍遍地重復加熱、冷卻過程。
加熱會使雙鏈DNA解旋成為單鏈。完全冷卻下來以后,引物找到并連接到科學家自己感興趣的DNA片段末尾?;旌弦褐械膯蝹€核苷酸基之后會連接到DNA鏈的剩余部分。
其中的加熱冷卻循環作用相當于開啟復印機:PCR可以復制DNA。循環往復冷熱可以復制出數以萬計的目標DNA。科學家將此描述為DNA擴增。
PCR不斷地復制DNA中所需的片段,在短短時間內,目標DNA片段的總體數量便會遠遠超過樣品中其他遺傳物質。
PCR已經被科學家們廣泛地應用于我們的生活中。例如,PCR可以復制在犯罪現場的DNA,法醫可以通過將此DNA與其他人如犯罪嫌疑人的DNA進行比對幫助破案。類似的例子還有環境學家運用PCR復制他們在河流里發現的新DNA樣本,然后比對將其歸入特定魚群。
賽澤同時指出,不停地復制DNA的特定部分也可有助于更快找到所需的數據文件。
他將這種理念比作是僅僅使用幾個特定字母來獲得一系列字母表,通過幾個字母獲得整整一碗盛滿字母表的“湯”。想要在茫茫數據里,挑出幾個單個字母好似大海撈針,十分耗時。但試假想可以不斷地一遍又一遍地復制任意你喜歡的字母。最后當你從這滿滿一碗字母“湯”里隨意搖起一勺,你能在幾乎每一勺字母里發現你心儀的那個。同樣的道理,PCR可以使復制DNA完全按照你的意志來進行。而后,你大可將此DNA送入專業實驗設備解碼,讀取其中儲存的數據信息。
在基因實驗與研究中,PCR是一個相當常用的工具。但將PCR引入用于尋找發現特定DNA電子文件卻剛剛起步:賽澤長期埋頭工作在微生物實驗室,在他日常的實驗工作中找到了靈感與突破口,這才將PCR正式引入。在研究與實驗中,他更加詳細地了解了PCR,他的團隊因而發現了“隨機通道”。他這樣解釋道,“你手上有兩件毫不相干的東西,但就在那一剎那間,你突然發現它們之間可以相互關聯起來。”
錦上添花
賽澤也表示,“在復制大批量DNA的過程中是極容易出現差錯的”。他的團隊對癥下藥,設計出了補救措施:當數據復制出現錯誤的DNA時,重疊部分形成三條獨立的DNA鏈。當解碼數據信息時,電腦需要分析至少這三條DNA鏈中兩條鏈來生成數據信息,這樣的話,即使一條鏈出現了一些差錯,電腦也可以從其他兩條鏈數據信息發現差錯并及時進行糾正。
同時,新的系統也要求所有數據同樣的高準確度。在儲存大數據量的文件時,降低對一些數據材料的精確標準將更有助于整個文件的儲存。例如,人們對于文本文件精確度要求極高,但如果換成是一張貓咪的圖片,大多數人對圖片像素就不會那么斤斤計較。
在實驗室的測試過程中,優化過的新系統表現十分出色。研究人員成功編碼了一個討論非洲國家盧旺達戰爭罪的視頻文件。當他們后來再來尋找這段視頻時,他們幾乎毫不費力輕松找到。實驗團隊也同時成功地編碼并重新制成了四個圖像文件。
迪恩就職于圣地亞哥的加利福尼亞大學,現在是一名計算機科學工程師。他主持賽澤小組新系統的DNA儲存與文件補救工作。他指出,DNA數據儲存能否推廣普及以及何時能夠實現普及仍存在許多不確定性因素,然而華盛頓大學的研究小組已經顯示出了在此研究領域非凡的潛力。“最讓人振奮的莫過于,他們已經成功地實現在人工合成DNA中儲存圖片,”他繼續補充道,“同時,他們在實驗室中也將這些圖片毫無差錯地讀取出來。”
當然,這是一張貓咪圖片。endprint