苦山
規(guī)律間隔成簇短回文重復(fù)序列(CRISPR)技術(shù)面臨一個(gè)問(wèn)題:資源多得讓人為難。
自從這種基因編輯系統(tǒng)聲名鵲起以來(lái),科學(xué)家一直在尋找具有更高精度和準(zhǔn)確性的變體。
一種搜索方法是在細(xì)菌和其他生物的DNA中篩選與CRISPR-Cas9相關(guān)的基因。另一種方法則是在實(shí)驗(yàn)室中人工改進(jìn)CRISPR組件,使其具有更好的治療功能——比如讓它們?cè)谌梭w內(nèi)擁有更高的穩(wěn)定性、安全性和效率。
這些數(shù)據(jù)存儲(chǔ)在包含數(shù)十億基因序列的多個(gè)數(shù)據(jù)庫(kù)中。盡管這些數(shù)據(jù)庫(kù)里可能隱藏著奇特的CRISPR系統(tǒng),但要搜索的條目實(shí)在太多了。
由麻省理工學(xué)院和哈佛大學(xué)合作成立并由CRISPR先驅(qū)張鋒博士領(lǐng)導(dǎo)的團(tuán)隊(duì)從現(xiàn)有的大數(shù)據(jù)方法中獲得靈感,利用人工智能對(duì)海量的基因序列進(jìn)行篩選,將范圍縮小到了與已知CRISPR系統(tǒng)相似的僅僅數(shù)種序列。
該人工智能工具搜索了開(kāi)源數(shù)據(jù)庫(kù)中的基因組,這些基因組源自多種罕見(jiàn)細(xì)菌——包括那些從啤酒廠、煤礦、寒冷的南極海岸以及狗唾液中發(fā)現(xiàn)的細(xì)菌。
在短短幾周內(nèi),該算法就鎖定了數(shù)千個(gè)潛在的新“生物學(xué)部件”,它們可以組成188種基于CRISPR的新系統(tǒng),其中包括一些極其罕見(jiàn)的系統(tǒng)。
其中有幾個(gè)新候選者格外引人注目。例如,有些變體可以更精確地鎖定目標(biāo)基因進(jìn)行編輯,且副作用更少。另外幾個(gè)變體雖然不能直接使用,但可以幫助我們了解某些現(xiàn)有CRISPR系統(tǒng)的運(yùn)作方式——比如,那些針對(duì)RNA的系統(tǒng)。RNA是一種“信使”分子,指導(dǎo)細(xì)胞從DNA中構(gòu)建蛋白質(zhì)。
“生物多樣性真是一座無(wú)盡的寶庫(kù)。”張博士說(shuō):“進(jìn)行此類分析是一舉兩得的事:既能研究生物學(xué)理論,也有可能發(fā)現(xiàn)實(shí)用的東西。”
大肆搜尋
盡管CRISPR因其在人類基因編輯方面的威力而聞名,但科學(xué)家最初是在細(xì)菌中發(fā)現(xiàn)了這個(gè)系統(tǒng),它在細(xì)菌中被用于抵抗病毒感染。
長(zhǎng)期以來(lái),科學(xué)家一直在世界的各個(gè)角落收集細(xì)菌樣本。得益于越來(lái)越便宜和高效的DNA測(cè)序技術(shù),這些樣本中(有些樣本來(lái)自諸如池塘淤泥等意想不到的地方)有許多已完成了基因藍(lán)圖繪制,并被存入了數(shù)據(jù)庫(kù)。
張博士對(duì)于搜尋新的CRISPR系統(tǒng)并不陌生。2023年早些時(shí)候,他在接受《麻省理工學(xué)院新聞》采訪時(shí)說(shuō):“幾年前,我們開(kāi)始發(fā)問(wèn),除了CRISPR之外還有什么?自然界是否存在其他可通過(guò)RNA編程的系統(tǒng)?”
CRISPR由兩個(gè)結(jié)構(gòu)組成。一個(gè)是“搜尋犬”向?qū)NA序列,通常約有20個(gè)堿基長(zhǎng),針對(duì)特定的基因。另一個(gè)是類似剪刀的Cas蛋白。一旦進(jìn)入細(xì)胞,搜尋犬找到目標(biāo),剪刀則剪掉基因。至于該系統(tǒng)更近期的版本,如堿基編輯技術(shù)或先導(dǎo)編輯技術(shù),則使用不同類型的Cas蛋白來(lái)執(zhí)行單字母DNA交換,乃至編輯RNA目標(biāo)。
早在2021年,張鋒的實(shí)驗(yàn)室追溯了CRISPR家族樹(shù)的起源,確定了一支全新的家系。這類被稱為OMEGA的系統(tǒng)使用外源向?qū)NA和蛋白質(zhì)剪刀,但仍然可以輕松地剪切培養(yǎng)皿中培育出的人類細(xì)胞里的DNA。
最近,該團(tuán)隊(duì)將他們的搜索擴(kuò)展到了生命形式的新分支:真核生物。這個(gè)家族成員(包括植物、動(dòng)物和人類)的DNA被緊密包裹在堅(jiān)果狀的結(jié)構(gòu)內(nèi)。與之形成對(duì)照的是,細(xì)菌沒(méi)有這些結(jié)構(gòu)。通過(guò)篩選真菌、藻類和蛤蜊(是的,生物多樣性又古怪又神奇),該團(tuán)隊(duì)發(fā)現(xiàn)了他們稱之為“Fanzor”的蛋白質(zhì),這些蛋白質(zhì)可以被重新編程,以用來(lái)編輯人類DNA,這是第一份證明真核生物中也存在類CRISPR機(jī)制的證據(jù)。
但是,我們的目標(biāo)并不僅僅是搜尋新的、酷炫的基因編輯器。應(yīng)該說(shuō),我們的目的是利用大自然的基因編輯能力來(lái)構(gòu)建一系列各具特長(zhǎng)的基因編輯器,它們可以治療遺傳疾病,并幫助我們了解人體的內(nèi)在運(yùn)作原理。
總而言之,科學(xué)家已經(jīng)發(fā)現(xiàn)了六種主要的CRISPR系統(tǒng),其中有些與不同的Cas酶合作,另一些則專門(mén)針對(duì)DNA或RNA。
張博士說(shuō):“大自然太神奇了。它有著如此的多樣性,可能還有更多可通過(guò)RNA編程的系統(tǒng)存在,我們正在繼續(xù)探索,希望能發(fā)現(xiàn)更多。”
生物工程拼字游戲
這就是張鋒團(tuán)隊(duì)構(gòu)建新人工智能算法“FLSHclust”的目的。他們將分析龐大數(shù)據(jù)集的技術(shù)(如軟件突出顯示大量文檔、音頻或圖像文件中的相似部分)改造為一種搜尋CRISPR相關(guān)基因的工具。
一等到該算法設(shè)計(jì)完成,它就分析了來(lái)自細(xì)菌的基因序列,并將它們分組——有點(diǎn)像是將不同顏色排成彩虹,也就是把相似的顏色組到一起,這樣就更容易找到你想要的色調(diào)。從這里開(kāi)始,團(tuán)隊(duì)便專注于尋找與CRISPR相關(guān)的基因。
該算法檢索了包括數(shù)以十萬(wàn)計(jì)來(lái)自細(xì)菌和古菌的基因組以及數(shù)百萬(wàn)個(gè)未知DNA序列在內(nèi)的多個(gè)開(kāi)源數(shù)據(jù)庫(kù)。總的來(lái)說(shuō),它掃描了數(shù)十億個(gè)蛋白質(zhì)編碼基因,并將它們分組成大約5億個(gè)聚類簇。在這些聚類簇中,團(tuán)隊(duì)確定了188個(gè)尚未有人將之與CRISPR建立關(guān)聯(lián)的基因,這些基因可以構(gòu)成數(shù)千個(gè)新的CRISPR系統(tǒng)。
其中有兩種系統(tǒng)分別源自動(dòng)物腸道和黑海中的微生物,使用了32個(gè)堿基長(zhǎng)的向?qū)NA,而不是CRISPR-Cas9中通常使用的20個(gè)堿基長(zhǎng)的向?qū)NA。它就像搜索查詢?cè)~一樣,長(zhǎng)度越長(zhǎng),搜索結(jié)果就越精確。這些更長(zhǎng)的向?qū)NA“查詢”表明,這些系統(tǒng)可能具有更少的副作用。另一種系統(tǒng)則類似此前的某個(gè)基于CRISPR的診斷系統(tǒng)“夏洛克”(SHERLOCK),它能快速感知來(lái)自感染性入侵者的單個(gè)DNA或RNA分子。
在培育的人類細(xì)胞中進(jìn)行測(cè)試時(shí),這兩種系統(tǒng)都能夠剪切目標(biāo)基因的單鏈,并以大約13%的效率插入小的基因序列。這聽(tīng)起來(lái)也許不算多,但它是一個(gè)可以被改進(jìn)的基準(zhǔn)數(shù)據(jù)。
該團(tuán)隊(duì)還發(fā)現(xiàn)了一種新的CRISPR系統(tǒng)的基因,它針對(duì)的是科學(xué)界此前未曾發(fā)現(xiàn)過(guò)的某種RNA。仔細(xì)觀察后,研究人員發(fā)現(xiàn),這一版本以及任何尚未發(fā)現(xiàn)的版本似乎都難以通過(guò)在世界各地采樣細(xì)菌來(lái)捕獲,因此在自然界中極為罕見(jiàn)。
研究作者蘇米婭 · 卡南(Soumya Kannan)博士表示:“這些微生物系統(tǒng)中有一部分只存在于煤礦的水中。如果不是有人對(duì)此產(chǎn)生興趣,我們可能永遠(yuǎn)也無(wú)法看到這些系統(tǒng)。”
眼下,要確定這些系統(tǒng)是否可以用于人類基因編輯還為時(shí)過(guò)早。例如,那些隨機(jī)切割DNA的系統(tǒng)對(duì)于治療而言并無(wú)用處。然而,人工智能可以挖掘龐大的基因數(shù)據(jù)來(lái)尋找潛在的“獨(dú)角獸”基因序列,該人工智能如今已向其他科學(xué)家開(kāi)放,供進(jìn)一步探索。