●王新凱

2019 年12 月10 日,MyHeritage 首席科學家、哥倫比亞大學副教授雅尼夫·埃利克在《自然- 生物技術》期刊上發表了一項最新成果,研究團隊通過3D 打印制作了一只兔子,并且將這只兔子三維結構的數據以雙鏈DNA 結構的形式內置在打印材料中。也就是說,通過編碼和解碼,這只兔子模型實現了其自身數據的DNA 存儲和傳遞。
雅尼夫·埃利克表示,這項研究最大的突破在于實證了萬物皆可實現DNA 存儲的理論,且不受任何形狀限制,從存儲密度來看,10噸DNA 即可存儲人類已經創造出的所有信息!在2019 年12 月13 日第三屆EmTech China 全球新興科技峰會的“賽博未來”版塊,雅尼夫·埃利克以“The DNA of Things”為題,為觀眾講述了DNA 存儲技術的潛在應用,并且在演講現場向觀眾展示這只DNA 存儲數據的兔子。
作為MyHeritage.com 的首席科學家,雅尼夫·埃利克在基因隱私與眾包基因組數據領域的基礎研究工作方面做出了巨大貢獻,曾因發現公開基因數據中存在的隱私漏洞被Nature稱為“基因黑客”。此外,他還創建了包含1300萬人口的家譜,是目前史上最大的譜系圖。
我們到底可以通過基因數據了解到哪些信息?我們還可以拿這些信息做些什么?還有哪些潛在的應用?以下為埃利克在EmTech China現場的演講內容(有刪減)。
在過去的70 年中,我們看到了技術不斷快速的發展,比如說在20 世紀50 年代,你需要6 個身強力壯的人去推一個大的設備,但是現在,智能手機的芯片可以搭載更多的信息,不會再需要這么多人來推動這么一個巨大的設備。除此之外,我們還有很多挑戰,尤其是針對數據存儲方面。首先,我們不再像以前一樣享受一個狂歡的時代了,比如說現在存儲的量以及它成本之間的比例,是在不斷變化的,我們看到現在有很多不同創新的方法,基本上每年這個成本都可以降低30%。
但是,在2010 年,我們發現創新的速度在變緩,主要原因是我們很難把這些設備的成本變得更優。另外一個是數字技術的演進,有些時候每一個設備搭建的架構是不一樣的,你可能需要完全做一個數據和技術的遷徙。比如說我很喜歡的一個20 世紀70 年代的影片,可能是在一張光碟上,但是現在的設備已經放不出來了,所以它可能是格式不對,或者是硬件不支持,有很多內容已經無法再讀取了。
接下來我想給大家解釋,是不是DNA 才是我們真正的存儲技術?首先可以看一下,在過去35 億年中DNA 都是存在的,而且在未來也會繼續存在著。我相信未來我們還是需要去借助DNA 的力量,它是任何生命物質的組成部分,我們可以通過了解自己的DNA 來了解自己的組成。
20 世紀90 年代的一個光盤,可以看到上面的擦痕非常明顯,而且沒有辦法修復,任何的數字技術都存在這樣的問題,你過了10 年之后,基本上這種硬件損毀就讓你沒有辦法去讀取它的信息。但DNA,你哪怕發掘出來了一個幾千年前的殘骸,都可以通過DNA 來了解當時的情況。所以,我們就在思考DNA 是不是可以存儲信息,但怎么去打造基于這種DNA的文件呢?每一個文件其實都是一個序列(二進制的組成),可能是0 和1,不管是文本,還是歌曲,都可以用這種形式存儲。DNA 其實也是一個序列,它是ATCG 幾種不同堿基的組合。我們可以給每一個字母去賦值,比如A 是00,C 是01,這樣就可以通過二進制來描述這個DNA 的編碼,我們也可以利用合成化學技術做到這一點。
其中一個方法是用噴墨式打印機,它其實是有不同噴墨針的,你可以把ATCG 放到噴頭上,它可以利用一些化學物質來打印,生成一個DNA 的序列,最終的結果是我們可以拿到一個像試管一樣的物品,它是以液體的形式存在。如果你想讀取的話就可以放到一個序列儀上,通過測序儀來讀取出存儲的數據。現在我和我的團隊也是希望能夠實踐這個理念,我們用了一個計算機操作系統,讀取了一個早年的電影,我們把所有的數據都放在了小的試管當中,我其實就帶在了身上,你如果看不清楚,覺得什么都沒有,我其實就是這個意思,真的特別小,小到幾乎看不見。這個DNA 是存在于小的試管當中,你可以通過測序儀去讀取它,這里面不會有任何的損失。
當然這個技術有一個缺點,每一次你想去讀取這個文件的話,你就需要提取出這個液體中的一部分,如果你要是想無數次地去測序的話,可能最終樣本量會越來越少。我的女兒非常喜歡一部電影中的主題歌,你們可以想象,如果把這個歌的信息存儲在DNA 上,而你一直在測序的話,可能最后這個片段就剩的越來越少了,那該怎么辦呢?我們現在在想,人體內的細胞其實是可以不斷地進行DNA 的復制,我們其實可以通過PCR 做一個類似的擴增,這是可以在實驗室內完成的。這個文件我們能不能正確讀取呢?答案是可以的,我們經過多次拷貝之后,可以看到兩個電影一模一樣,沒有任何的差別,是因為我們有非常好的糾錯代碼,雖然在復制過程中會出現錯誤,但是我們可以很好地把錯誤糾正過來。

雅尼夫·埃利克在演講中
另外我們做了一個實驗,也希望看一下在DNA 當中我們的信息密度可以達到多少,一個DNA 最多可以儲存多少比特的信息。為了這個實驗,我們拿了這個試管,每一次我們拿出一滴,我們都會把它的濃度稀釋成過去的1/10,然后我們再拿一滴,再去稀釋它,再拿一滴,再去不停地稀釋,一直在重復,直到我們沒有辦法再從一滴的液體當中讀取到任何信息為止。我們最后得到的結論,我們最大的密度,在每一個DNA 上,上面可以有125“艾”字節的信息,所以說我們可以想象,基本上這么一個房間里面,全都是筆記本電腦的話,所有這些信息都可以儲存到一個DNA 上。大家可以想象一下,人類所創造的數據總量應當是10到24 次方,我們只需要10 噸的DNA 就可以儲存我們所有的電影、微信聊天記錄,所有人類創造出的數字信息,所有數字信息都可以在10 噸的DNA 上存儲,這10 噸的DNA 直接可以裝到一個大卡車上。
另外還可以跟大家分享一個我們的想法,我們可以想象一下傳統的存儲設備,他們都是有一定形狀的限制,CD 光盤我們之所以叫它光盤是因為它是圓的,你沒有辦法把它的形狀改變,你也沒有辦法折它,它必須是一個光盤才可以。膠卷像一個卷一樣,如果把它弄壞了信息就沒了。硬盤,我們把它叫做硬盤是因為它就是硬的,你沒有辦法去掰它,你也沒有辦法改變它的形狀,但是DNA 是一種液態的信息儲存方式,它的排列順序是沒有特定要求的。為什么我們不能使用這樣的技術,使用材料把它填充進來,然后把它做成我們的一般物品,這些常見的物品里面都有我們儲存信息的DNA。這次我們不把它放到試管里面,我們把它放到很小的硅珠當中,然后我們用膠囊把它封住,再把這些小珠放到聚合物里面,比如說塑料,然后我們再把塑料做成我們想要的一些東西或者是形狀。我們生產了眼鏡的鏡片,當中就有我們的硅珠,硅珠里面就有DNA,DNA里面有很多電影,如果你想看電影,只需要從里面剝出一小點的硅珠,然后把它解析開來,你就可以看電影了。
如果我們把左邊和右邊的鏡片進行比較,可以看到它是完全透明的,左邊是沒有硅珠的,右邊的是有硅珠的。所以,我們可以把它做成非常常見的東西,比如你可以在這樣的硅珠當中,去存儲一些個人信息、敏感信息,如你的密碼,你戴上這幅眼鏡,但根本沒有人會注意到它有什么不同尋常的地方。我手上的這只小兔子是3D 打印的,但不是一個一般的兔子,因為這個兔子里有DNA,這個DNA 里寫了如何打印這個兔子的3D 打印指令。我們可以想象一下,這樣一只小兔子里有生產它的具體指令,兔子里有硅珠,硅珠里有DNA 信息,這個DNA 信息就是如何制造這只小兔子的生產信息,我們只需要把這只小兔子的耳朵折下一點,讀取這個DNA 信息,進行復制,就可以生產新的小兔子了。這是非常酷的,因為這些新生產的兔子也有DNA,所以我們不斷地復制這樣的小兔子,就像兔子繁殖一樣,我們不斷地復制、不斷地迭代。我們測試了一下,生產了6 代這樣的兔子,在最后一代的時候,我們還是能從最后生產的兔子里,提取到我們最原始的信息,沒有任何的錯誤,和一開始兔子上面的信息是一樣的。
物聯DNA 有什么樣的應用呢?我們可以把各種各樣材料的生產方式放到材料本身,比如說我們可以在植入物當中放上病人的醫療信息,以后等到這個植入物植入了20 年之后,可能患者的病例已經沒了,我們只需從這名患者體內拿出這個植入物,從里面提取信息就可以了。我們也可以用這樣的方式來生產各種各樣的汽車部件,如果說汽車有什么部件損壞了,我們只需要從這上面刮下來一點東西,就可以重新生產同樣的部件。第二個應用就是隱藏信息,我們可以把一些常見的東西或者是物件當作隱藏信息的載體,就像是我們的鞋帶、鏡片、襯衣或者是我們衣服上的扣子,所有這些都可以幫助我們來儲存和隱藏信息。甚至是我們也可以通過喝飲料的方式,把硅小球喝到肚子里面,然后需要的時候我們再把它排泄出來。第三個應用就是我們自復制的機器人。因為我們知道機器人是沒有辦法自復制的,但是對于自復制機器人,他們需要有能力把自己的生產方式自動傳遞給下一代的機器人,但是我們的技術是可以幫助滿足這種標準和要求的,這就幫助我們更加接近了自復制機器人。
DNA 很有可能是我們終極的儲存設備,它的存儲密度要比我們其他的存儲技術都要高,而且它會更加持久,我們只要使用一個一般的DNA 測序儀,就可以把信息解析出來。因為我們沒有任何材料或者形狀上的限制,我們可以把DNA 注入到我們常見的物件當中,然后成為我們常見物件當中的一部分。