20世紀末,很多人都在討論即將到來的21世紀到底是信息技術(shù)的世紀,還是生物技術(shù)的世紀。但是,現(xiàn)在我們已經(jīng)越來越清晰地意識到,21世紀既是信息技術(shù)也是生物技術(shù)的時代,更是兩者的交叉融合,這種交融很有可能帶來更多、更新的機會。
交叉科學(xué)的重要性
科學(xué),可以說是“分科之學(xué)問”。人類迄今獲得的知識已經(jīng)浩如煙海,單憑個人的能力已不可能掌握全部的科學(xué)知識。而科學(xué)被劃分成數(shù)學(xué)、物理、化學(xué)、生物等學(xué)科。這種分科研究的方法便于人們聚焦特定行業(yè)或領(lǐng)域,有針對性地累積大量專業(yè)知識,從而取得更深入和系統(tǒng)化的認識,推動該學(xué)科的發(fā)展。
雖然傳統(tǒng)的分科研究推動了現(xiàn)代科學(xué)飛速發(fā)展,但是我們也已看到這種方法的一些固有缺陷。比如過度分割可能導(dǎo)致學(xué)科和學(xué)科間缺乏聯(lián)系,很多研究無法突破邊界等。這些缺陷的存在導(dǎo)致不同學(xué)科之間留下大量的空白地帶,這也使得科學(xué)界對交叉科學(xué)產(chǎn)生了極大關(guān)注。交叉學(xué)科需要研究者具備跨越不同學(xué)科間壁壘的能力,而作為一種新的科研范式還可能超越傳統(tǒng)學(xué)科里先行者固有的先發(fā)優(yōu)勢。這種特質(zhì)更為我國帶來了一種全新的可能性:傳統(tǒng)賽道上歐美是先行者,已經(jīng)建立起幾百年的領(lǐng)先優(yōu)勢,我國雖然在奮力追趕,但想要趕超還有待時日。而在傳統(tǒng)學(xué)科的邊緣和交叉地帶還存在全新的機會和無限的潛力,我們有望通過學(xué)科交叉搶先取得能夠影響全世界、全人類發(fā)展的重大突破。因此交叉科學(xué)受到了國家和社會的廣泛關(guān)注,學(xué)科的交叉融合已成為科學(xué)發(fā)展的重要時代特征。
信息技術(shù)(IT)與生物技術(shù)(BT)的交叉
谷歌,這家傳統(tǒng)的IT大企業(yè),看似研究領(lǐng)域與生命科學(xué)毫無聯(lián)系,難以想象它能夠引發(fā)生物技術(shù)領(lǐng)域顛覆性的革命。但這種情況卻在過去的幾年內(nèi)變成了現(xiàn)實——2018年谷歌首次發(fā)布AlphaFold,利用人工智能(AI)的力量對蛋白質(zhì)結(jié)構(gòu)實現(xiàn)了預(yù)測。到2024年5月,AlphaFold已經(jīng)更新至第三版,將可預(yù)測的范圍從蛋白質(zhì)結(jié)構(gòu)擴展到大部分生命分子。這種技術(shù)對于生命科學(xué)領(lǐng)域產(chǎn)生了非常深遠的影響,因為蛋白質(zhì)等生命分子的結(jié)構(gòu)可以說是整個生物技術(shù)領(lǐng)域的基石之一。生物體內(nèi)的酶、各種抗體等功能性大分子在生物體內(nèi)發(fā)揮著重要的功能,因此這些分子的精準結(jié)構(gòu)可以為新的結(jié)構(gòu)改造或藥物分子設(shè)計提供指引,加速藥物的發(fā)現(xiàn),尋找新的靶點和治療方法。在AI被引入結(jié)構(gòu)生物學(xué)之前,百年間無數(shù)生物學(xué)家進行了不懈的努力,仍然只有極少數(shù)蛋白質(zhì)的結(jié)構(gòu)被真正研究出來。因此當(dāng)?shù)谝话鍭lphaFold推出并展示出其強大的實力之后,結(jié)構(gòu)生物學(xué)家紛紛發(fā)出悲嘆,因為他們在做的事情似乎已經(jīng)被 AI 代替了,但是很快他們又從悲觀中醒悟過來,因為這種顛覆性的突破實際上預(yù)示著更大的機會,現(xiàn)在生物技術(shù)領(lǐng)域的科學(xué)家都開始積極地擁抱AlphaFold,把它作為一種強大的工具加速自己的研究。除了AlphaFold之外,現(xiàn)在還有越來越多來自IT領(lǐng)域的技術(shù)與生命科學(xué)掛起鉤來,比如AI與醫(yī)學(xué)的結(jié)合等,這些都是典型的IT-BT跨界從而產(chǎn)生新機遇的例子。
上文描述的是IT向BT的跨界,那么反過來BT是否也能給IT賦能呢?DNA或許就能做到這一點。
DNA的發(fā)現(xiàn)及重要應(yīng)用
DNA存在于我們每一個人的身體里,從本質(zhì)上來講,DNA是一個化學(xué)分子,可以被看作一種高分子。生物界在進化的過程當(dāng)中,選取了這種雙螺旋結(jié)構(gòu)的高分子材料作為我們遺傳信息的載體。DNA雙螺旋是一個特別美妙的結(jié)構(gòu),我們可以將這種結(jié)構(gòu)想象成一條拉鏈,向右手方向擰轉(zhuǎn)。很多藝術(shù)家都非常喜歡這樣一個來自生命的結(jié)構(gòu),因此我們在很多建筑物或者雕塑中都能發(fā)現(xiàn)這樣的元素。在DNA雙螺旋結(jié)構(gòu)發(fā)現(xiàn)50周年的時候,有人把DNA的雙螺旋結(jié)構(gòu)和蒙娜麗莎融合到了一起。在藝術(shù)中,永恒的形象是蒙娜麗莎;在科學(xué)里,永恒的形象是DNA雙螺旋結(jié)構(gòu)。
雙螺旋結(jié)構(gòu)的發(fā)現(xiàn)可以追溯到1953年,兩位偉大的科學(xué)家——沃森(Watson)和克里克(Crick)——在著名的《自然》雜志上發(fā)表了一篇論文“核酸的分子結(jié)構(gòu)”。整篇論文只有一頁紙和一張圖,卻開啟了生命科學(xué)進入微觀世界的新征程——分子生物學(xué),后續(xù)衍生出了分子微生物學(xué)、分子神經(jīng)生物學(xué)、腦科學(xué)等全新的領(lǐng)域。更重要的是,雙螺旋的發(fā)現(xiàn)回答了一個困擾人類上萬年的天問:我們從哪里來?我們到哪里去?這篇簡短的論文告訴我們:DNA一共只包含四種單體,分別用A、T、C、G表示,其中A與T配對,C與G配對,“從DNA的配對的方式,我們馬上可以推測出遺傳物質(zhì)的復(fù)制機制”。這樣一個簡單的結(jié)構(gòu)讓我們明白我們?nèi)绾螐母改柑帿@得遺傳信息,又如何傳遞到下一代。有意思的是沃森是一位生物化學(xué)家,克里克是一位物理學(xué)家,所以DNA結(jié)構(gòu)的發(fā)現(xiàn)本身也是跨界的產(chǎn)物。
經(jīng)過幾代科學(xué)家的共同努力,現(xiàn)在我們翻開任何一本分子生物學(xué)的教科書,都可以看到遺傳是如何進行的。我們體內(nèi)有一種叫DNA聚合酶的蛋白質(zhì),它的尺寸是頭發(fā)絲的千分之一,它像一個納米尺度的復(fù)印機,把DNA雙螺旋從中間分開,然后“復(fù)印”出兩條跟原來一模一樣的雙螺旋鏈,這就是DNA的復(fù)制過程,在我們細胞里這種復(fù)制無時無刻不在進行。
核酸(包括DNA和RNA)相關(guān)的研究一直是諾貝爾獎的寵兒,它產(chǎn)生了幾十個諾貝爾獎,上百位科學(xué)家因此獲得諾貝爾獎,可以說是產(chǎn)出諾貝爾獎最多的領(lǐng)域之一。從最開始對于核酸結(jié)構(gòu)的認識,到核酸功能的認識,再到前幾年對核酸信息的調(diào)控——也就是大家耳熟能詳?shù)腃RISPR基因編輯技術(shù)。通過對該技術(shù),我們不僅可以了解基因的結(jié)構(gòu)和功能,還可以對它內(nèi)部儲存的遺傳信息進行非常精準的編輯和調(diào)控。
這樣一段非常美妙的科學(xué)發(fā)現(xiàn)歷程不僅滿足了人類的好奇心,也讓我們知道我們從哪里來、到哪里去,而且開啟了整個現(xiàn)代生物技術(shù)工業(yè)。例如核酸檢測技術(shù),這是一個非常偉大的技術(shù),也獲了諾貝爾獎,它利用自然進化過程中的聚合酶,像一臺天然復(fù)印機一樣不停地把采集到的DNA分子一變二、二變四,最終積累到很高的水平。因此即使一開始樣本里只有極少量的病毒DNA,通過DNA聚合酶的復(fù)制擴增也可以實現(xiàn)檢測。核酸檢測技術(shù)可以對病毒、細菌或者目標基因進行高靈敏度的檢測,在醫(yī)學(xué)、農(nóng)牧學(xué)、生態(tài)學(xué)、刑偵等領(lǐng)域都有廣泛的應(yīng)用。
另一個非常重要的技術(shù)就是核酸測序。它起源于20世紀末一個非常偉大的大科學(xué)項目,稱為人類基因組計劃。當(dāng)時全世界幾十個國家聯(lián)合起來,投入幾十億美元,經(jīng)歷整整十年時間,只測了一個人的基因。而今天,我們只需要花費幾個小時和不到1000元人民幣,就可以測一個人的全部基因序列。如果測序的價格能夠降到100元的話,或許我們的體檢都可以加上這一項目。
測序技術(shù)的發(fā)展還讓我們能夠測幾十萬年甚至百萬年前古生物的基因信息,幫助我們了解古人類、猛犸象等古生物。古生物DNA測序技術(shù)前幾年也獲得了諾貝爾獎。
DNA成為一種變革性的新材料
在微觀層面,利用高分辨顯微鏡我們可以看到DNA的真實結(jié)構(gòu),就像一條寬度只有2納米的毛線,我們不僅可以看到它,還可以操縱它排列出我們想要的字母。在宏觀層面,特殊的紡絲技術(shù)可以把DNA紡成細絲,而且它的強度比天然蛛絲的強度還要高,可以作為防彈衣和人工韌帶等的原材料。最早提出把DNA作為一種材料來使用的是紐約大學(xué)的西曼(Seeman)教授,他在1983年提出這個新穎的想法時還被認為是荒誕和不切實際的,但是現(xiàn)在這已經(jīng)變成現(xiàn)實。
為什么DNA可以作為一種變革性材料?
我們都知道IT世界的底層邏輯是0和1,而我們生命的背后就是ATCG四個字母。如果把0和1看作二進制,那么DNA就是一個四進制的編碼體系,大自然中花鳥蟲魚本質(zhì)上都是ATCG的排列組合。DNA作為一種億萬年進化選擇的高分子材料,擁有和其他材料不同的一個特征,即可編程性,因此它的本質(zhì)是一種由ATCG四個字母組成的、可編碼的分子信息材料。
有一種叫作“DNA折紙”的技術(shù),就像織毛衣一樣,可以按照特定的程序把DNA編制成各種各樣不同的圖案。最早是加州理工學(xué)院羅斯蒙德(Rothemund)博士利用這樣的編程技術(shù),用DNA編織了一個直徑為70納米的笑臉圖案。2006年我們團隊用DNA做了一幅中國地圖,這是一個不對稱的DNA納米結(jié)構(gòu),也可能是最小的中國地圖之一。后來我們又用地圖作為模塊單元,拼出了一個熊貓圖案。現(xiàn)在這個快速發(fā)展的領(lǐng)域我們稱為DNA納米技術(shù)或者核酸納米技術(shù)。簡單地理解,這種技術(shù)可以像織毛衣或3D打印一樣,能把DNA這種信息材料編碼成一維、二維、三維、多孔、曲面等各種各樣的納米尺度的結(jié)構(gòu)。
這些非常規(guī)則和精確的材料有著廣泛的應(yīng)用。宏觀世界里最有用的材料就是框架材料,例如房子就是由多種框架材料構(gòu)成的。框架材料為什么重要?我國古代的哲學(xué)家老子給出了一個最精準的哲學(xué)描述,就是“利”和“用”的關(guān)系。道德經(jīng)里有一句話叫作“有之以為利,無之以為用”,就是說必須要有框架有空間才能發(fā)揮作用,就像空碗才能吃飯,空杯才能喝水,空屋才能住人,框架里面空心的部分“無”才是能夠發(fā)揮作用的部分。
基于利用DNA來編織框架結(jié)構(gòu)的能力,我們率先在國際上提出了“框架核酸”的概念,即一類人工設(shè)計的結(jié)構(gòu)核酸,它的尺寸、形貌和力學(xué)特性可以程序性調(diào)控。這種微小的框架核酸可以“住”分子,為生物分子的識別提供更好的結(jié)構(gòu)支撐,從而成為疾病診療、合成生物學(xué)等領(lǐng)域的重要工具。
在過去的十幾年里,我們團隊和國際上許多團隊一起在框架核酸的領(lǐng)域做了很多工作,并證明它確實是一個通用的技術(shù)平臺和工具箱,可以為生物檢測、疾病治療甚至微電子相關(guān)的領(lǐng)域提供非常精確的基本工具。
DNA與IT的結(jié)合
那么如何把DNA與IT結(jié)合起來的呢?
讓我們用宏觀世界中已經(jīng)無處不在的機器人作為例子。機器人是一個典型的IT產(chǎn)物,那么微觀世界中是否也有類似的機器人呢?關(guān)于這個概念,我們最早可能只是在科幻小說里看到過,未來可能有一種納米機器人,它可以走到我們的細胞里,尋找到癌細胞并消滅它們,這樣不用手術(shù)就能治療疾病。科學(xué)就是不斷地把科幻變成現(xiàn)實的歷程,科學(xué)家圍繞這個看似科幻的想法奮斗了很多年,大家意識到要建造這種納米尺度的機器人必須要利用生物技術(shù)采用分子來搭建。
首先是要創(chuàng)造出可以運動的分子,我們稱之為 “分子機器”。1983年法國科學(xué)家索瓦日(Sauvage)發(fā)明了兩類可以自主運動的分子機器,通過有機合成的方式創(chuàng)造了分子的運動。隨后許多科學(xué)家都在分子機器領(lǐng)域不斷探索,例如荷蘭的費林加(Feringa)教授發(fā)明了可以運動的分子汽車。這兩位教授和美國的斯托達特(Stoddart)教授一起獲得了2016年的諾貝爾獎,以表彰他們在分子機器領(lǐng)域的貢獻。分子機器的產(chǎn)生使得分子突破了布朗運動的限制,產(chǎn)生了定向機械運動,可以像宏觀的機器人一樣走起來。諾貝爾獎委員會高度評價了這種納米尺度的機器人:“分子機器在未來的應(yīng)用可以說無可限量,甚至還能應(yīng)用于醫(yī)療上,進入人體組織修復(fù)器官,除去癌變細胞,更換有缺陷的人體基因。 ”
但是諾獎的頒發(fā)并不意味著分子機器人的研發(fā)畫上了圓滿的句號,它代表的其實是大家對技術(shù)潛力的無限憧憬,也代表這還沒有成為現(xiàn)實。這些通過有機合成人為創(chuàng)造的分子,在體外可能運行得很好,納米機器可以產(chǎn)生各種各樣的功能。可是它一旦進入細胞,情況就會完全不同。因為細胞對于這些小分子來說是一個太過于巨大和復(fù)雜的空間,有點類似人類進入了浩瀚的太空。細胞內(nèi)部有細胞質(zhì)、細胞核和各種細胞器,要在這些位置之間穿梭就像人類要在不同的星球間穿梭一樣,是一個高難度的行為,需要克服高度復(fù)雜的生物環(huán)境帶來的各種問題。
要完成這樣復(fù)雜的動作,必須讓這些機器具有智能。這已經(jīng)超越了有機合成的能力范疇,于是化學(xué)家將目光轉(zhuǎn)向了分子的組裝,希望借此突破分子智能的限制。因為在我們的細胞里面就有一些機器時時刻刻都在運行。比如說我們體內(nèi)與肌肉運動相關(guān)的蛋白質(zhì)就在不斷組裝和解組裝,這就是一個天然的分子機器。于是我們前些年提出了一個理念:能不能不依靠有機小分子從頭合成,而是直接借助自然的力量,利用DNA或者框架核酸在細胞里的組裝和解組裝來構(gòu)筑仿生的DNA機器,從而實現(xiàn)細胞里的物質(zhì)和能量調(diào)控。
基于這個理念我們開啟了全新的合成生物學(xué):我們創(chuàng)建了一系列由框架核酸組裝的元件,它們像3D打印一樣精確;我們證明了可以通過分子組裝產(chǎn)生智能,即用框架核酸創(chuàng)造智能分子機器人,雖然看上去比較粗糙,但卻可以像家里的掃地機器人一樣走迷宮;我們還從細胞外深入到了細胞內(nèi),仿造病毒這種天然納米機器人的構(gòu)造和工作原理做出框架核酸納米機器人。這些工作有望推動生物醫(yī)藥產(chǎn)業(yè)的進一步發(fā)展。
DNA這種全新的材料與IT世界中機器人的結(jié)合是一個新興的領(lǐng)域,但已經(jīng)呈現(xiàn)出非凡的價值,值得持續(xù)探索。
DNA存儲
DNA存儲簡單來說,就是用DNA來存儲計算機的信息。這個想法是不是聽起來很瘋狂?基于硅的計算機信息為什么能存到我們碳基的生命中去?但是一旦深入到兩者的本質(zhì)層面上,這一切就能得到非常合理的解釋,因為計算機世界本質(zhì)上是0和1組成的二進制世界,而DNA則是由ATCG四種基元組成的四進制世界。這兩個進制之間完全可以進行相互轉(zhuǎn)換。
近些年DNA存儲獲得了各界的廣泛關(guān)注,例如:我國把DNA存儲列入《中華人民共和國國民經(jīng)濟和社會發(fā)展第十四個五年規(guī)劃和2035年遠景目標綱要》和《“十四五”國家信息化規(guī)劃》;美國的《科學(xué)》(Science)雜志提出了未來發(fā)展的125個科學(xué)問題,其中信息科學(xué)的四大問題之一就是能否用DNA做信息存儲的介質(zhì);美國成立了DNA數(shù)據(jù)存儲聯(lián)盟,微軟等企業(yè)已經(jīng)參與其中;國內(nèi)的一些IT公司也對這個領(lǐng)域非常感興趣,希望參與這個全新的變革性存儲研究。
數(shù)據(jù)或者信息的存儲實際與整個人類文明的發(fā)展密不可分,可以說整個人類社會的文明史就是一個信息存儲和傳播方式變革的歷史。從原始人的結(jié)繩記事,到紙張的發(fā)明,再到1980年代出現(xiàn)電子信息。如今又有了硬盤、U盤、云盤等新的存儲介質(zhì),數(shù)據(jù)存儲的問題是不是已經(jīng)都解決了呢?
實際上并沒有,看一下全球數(shù)據(jù)的增長情況就能發(fā)現(xiàn)我們進入了一個信息爆炸時代。2020年全世界的數(shù)據(jù)是44澤字節(jié),也就是440萬億億字節(jié),這些數(shù)據(jù)的保存需要消耗整個三峽大壩全年的發(fā)電量,而且數(shù)據(jù)還在不斷增長,對能源的消耗將會難以為繼。但是我們再仔細分析就能發(fā)現(xiàn)這些數(shù)據(jù)里80%~90%都是冷數(shù)據(jù),這些數(shù)據(jù)不像我們手機里的信息需要快速頻繁地調(diào)用,相反它們在一年甚至更長時間里都很少被使用。這些數(shù)據(jù)如果要保存需要持續(xù)地消耗能源或者金錢,但如果直接丟棄又可能意味著人類文明的一種損失,這就造成了一個困境。
另一個困境來自數(shù)據(jù)的傳輸。各種技術(shù)的發(fā)展使得現(xiàn)在人類活動產(chǎn)生的數(shù)據(jù)已遠超從前。例如前些年人類第一次拍攝黑洞的照片,數(shù)據(jù)量高達5拍字節(jié),要存滿幾千個太字節(jié)級別的硬盤,總重量達到半噸。這樣的數(shù)據(jù)量已經(jīng)無法用網(wǎng)絡(luò)進行傳輸,只能回到最原始的方法,用車輛或者飛機來運輸,運輸?shù)碾y度和費用直線上升。
第三個困境是存儲壽命的困境。現(xiàn)在的硅基存儲方式十年左右基本都要進行一次數(shù)據(jù)的遷移,除了造成成本上升之外,隨之而來的還有數(shù)據(jù)安全性和可靠性的問題。
這些困境都對硅基存儲提出了嚴峻的挑戰(zhàn),于是大家想到了DNA存儲。實際上,早在1960年代就有科學(xué)家提出DNA存儲的設(shè)想,1988年這個設(shè)想得到了首次證明。如上所述,二進制和四進制的轉(zhuǎn)換實際上并不難。對DNA存儲而言,數(shù)據(jù)的寫入就是DNA的合成,而數(shù)據(jù)的讀出就是基因測序。
微軟前幾年也進入DNA存儲領(lǐng)域并在2019年推出了全世界第一臺端到端的DNA存儲原型機,使DNA存儲從科學(xué)研究真正走向了產(chǎn)業(yè)化。國內(nèi)的華為、聯(lián)想和華大基因也都非常關(guān)注DNA存儲。這種來自業(yè)界的高度關(guān)注與DNA的優(yōu)勢是密不可分的。經(jīng)過推算,利用DNA這一來自生命的全新材料存儲數(shù)據(jù),可以把信息存儲的物理極限提高7個數(shù)量級,相當(dāng)于把1000萬塊硬盤的數(shù)據(jù)存到一個只有50克砝碼大小的DNA中,而全世界的數(shù)據(jù)用200千克DNA就可以存下。這樣再也不會擔(dān)心未來的數(shù)據(jù)量太大存不下了。除了密度極高之外,DNA存儲的能耗極低,壽命極長。對于硅基來說存儲十年是壽命極限,DNA卻可以存儲千年甚至百萬年,理論上DNA中的信息可以永久保存。此外,DNA存儲還有高安全性和抗干擾性等優(yōu)勢。
更重要的是DNA存儲的上下游已經(jīng)獲得了突破。DNA合成早在20世紀就已經(jīng)實現(xiàn),到現(xiàn)在已經(jīng)是一個成熟的產(chǎn)業(yè),成本是按照摩爾定律下降的。而基因測序由于人類基因組計劃的推動,甚至出現(xiàn)了超摩爾定律的發(fā)展,已經(jīng)從一個幾十億美元的天價科學(xué)項目變成一個不到1000元的成熟技術(shù)。DNA存儲很可能在不久的將來就可以實現(xiàn)。
雖然現(xiàn)在DNA存儲的存取和讀出速度還比較慢,只是應(yīng)對部分冷數(shù)據(jù)的存儲,但相信在可預(yù)見的未來,包括醫(yī)療、航空航天等領(lǐng)域的各種大數(shù)據(jù)都有可能變成由DNA來存儲。
DNA存儲是利用來自生物的材料執(zhí)行IT的功能,因此是一個典型的IT-BT交融領(lǐng)域,我們期待它能夠按照半導(dǎo)體科技爆發(fā)式、跨越式、非線性的規(guī)律來發(fā)展。就如1946年全世界第一臺計算機埃尼阿克,整個計算機極其復(fù)雜,體積和一個房間一樣大;但是到1982年就已經(jīng)出現(xiàn)與我們現(xiàn)在的計算機非常相似的個人電腦。所以我們期待這臺微軟開發(fā)的簡單粗糙的DNA存儲原型機能在不久的將來脫胎換骨,真正成為一臺商業(yè)化的設(shè)備。我們也在上海交通大學(xué)成立了DNA存儲研究中心,希望能引領(lǐng)和促進整個行業(yè)的發(fā)展。未來IT和BT的交融,以及更多不同學(xué)科的交叉與融合,可能就是新一輪科技革命和產(chǎn)業(yè)變革的必由之路。