宋麗杰 王麗 王捷


摘要:CRISPR/Cas9系統是原核生物抵御病毒或質粒等外來遺傳物質入侵的一種獲得性免疫系統,主要由非特異性的Cas9核酸酶和起識別作用的crRNA所組成。相較于傳統的基因組編輯技術,基于CRISPR/Cas9系統的基因組定點編輯技術具有快速、簡單、高效等優點,并且幾乎可以用于任何物種的基因編輯。盡管CRISPRJCas9系統的基因組特異性還有待進一步確認,但該系統在基因組編輯方面的簡便性和有效性必將促進生物學的研究和人類疾病基因治療方面的發展。
關鍵詞:人工核酸內切酶:基因編輯:CRISPR/Cas9
中圖分類號:Q789
文獻標識碼:A
文章編號:1007-7847(2015)03-0276-07
基因組定點編輯技術是研究基因功能的一種重要手段,同時也是許多基因相關疾病的潛在治療方法。早期主要依賴于基因同源重組及體細胞核移植技術來完成對特定基因的改造,然而自然情況下基因重組效率極低,且細胞核移植技術費時費力[1,2],嚴重制約了基礎研究和臨床應用。因此,在不斷尋求高效、簡便的基因編輯方法過程中,人工核酸內切酶(engineered endonuclease.EEN)介導的基因定點編輯技術快速發展成為一種主流方法。
人工核酸內切酶進行基因編輯的第一步是在修飾位點誘導產生DNA雙鏈斷裂缺口(doublestrand breaks,DSB)。核酸酶誘導產生的DSBs可借助非同源末端連接(non homologous end-join-ing,NHEJ)機制或同源重組(homologous recombi-nation,HR)機制進行修復。NHEJ將斷裂的雙鏈末端直接連接起來,可有效地引起基因的插入/缺失突變,即inclel突變,從而使基因的功能遭到破壞。當引入模板DNA序列時,可通過同源重組修復(HR),插入或刪除特定的基因序列。通過人工核酸內切酶介導的DSBs,基因突變的幾率大于1010,有時甚至超過50%[3] ,因此,人工核酸內切酶被稱為“DNA剪刀”。鋅指核酸內切酶(zinc finger en-donuclease,ZFN)和類轉錄激活因子效應物核酸酶 (Lranscriplion activator-like effector nuclease,TALEN)分別作為第一代和第二代“DNA剪刀”,都是由DNA結合蛋白與核酸內切酶Fok I融合而成。但由于這兩種人工核酸內切酶制備復雜,成本昂貴,難于開展大規模基因編輯的篩選,使其應用有所局限。近年來,細菌獲得性免疫系統CRISPR (clustered regularly interspaced shortpalinclromic repeats)的應用使得基因組編輯技術進一步簡化.CRISPR/Cas9作為第3代人工核酸內切酶迅速成為目前研究的熱點,其獨特性和靈活性在于該系統是通過RNA介導核酸酶與靶DNA序列結合的。與以DNA結合蛋白為基礎的ZFN和TATJFJN相比,以RNA介導的CRISPR/Cas9系統原理更加簡單,只需要遵循RNA與DNA之間的堿基互補配對原則。
本文重點介紹了CRISPR/Cas9的作用機理及其應用,最后就CRISPR/Cas9技術目前存在的問題及其應對策略進行了探討。
1 CRISPR/Cas9的結構及作用機理
CRISPR廣泛存在于細菌和古細菌的基因組中,是細菌和古細菌的一種適應性免疫系統,該系統可以介導外源DNA的降解,從而抵御病毒等外來入侵者[4,5]。1987年,日本學者首次在大腸桿菌中發現該間隔重復序列[6];2002年,Jansen等[7,8] 將其正式命名為CRISPR,基因編碼的蛋白質統稱為CRISPR附屬蛋白(CRISPR-associa七ion pro-teins,Cas)。CRISPR/Cas系統具有Type I、TypeⅡ、TypeⅢ3種不同類型,其中研究最多、應用最廣的是Ⅱ型CRISPR/Cas系統。產膿鏈球菌(Strepto-coccus pyogenes SF370)的Ⅱ型CRISPR基因座主要由三部分組成,包括Cas9核酸酶基因、不編碼蛋白質的tracr RNA基因和CRISPR基因(圖1),其中CRISPR基因由前導序列(leader sequence)、間隔序列( spacers)和重復序列(repeats)組成[9] 。CRISPR/Cas9系統介導的適應性免疫主要分為3個步驟。首先是新的間隔序列的獲取:外來質粒或病毒DNA首次入侵時,Ⅱ型CRISPR系統將外來DNA整合入CRISPR重復序列之間形成一段新的間隔序列,并隨著宿主DNA -起編碼;其次是crRNA的表達、加工與成熟:CRISPR重復序列和間隔序列經轉錄加工為pre-crRNA,tracrRNAs與pre-crRNA的重復序列區域配對雜交,然后內源性的RNaseⅢ從每一個間隔序列的5'端裂解雜合的pre -crRNA -tracrRNAs,產生成熟的tracr-RNA-crRNAs,并與Cas9核酸酶結合[10] ;最后,當同樣的外源DNA再次出現時,CRISPR-Cas復合體可與雙鏈DNA的靶位點結合并切割雙鏈。靶標的識別和DNA鏈的裂解既需要間隔序列和靶序列之間的互補,又需要靶DNA序列3'端存在PAM (Protospacer adjacent motif)序列[11],PAM序列的存在還避免了CRISPR基因本身被作為靶標識別,提供了一個識別“自己”和“異己”的機制。不同的Ⅱ型CRISPR系統有不同的PAM序列,基于產膿鏈球菌CRISPR系統的PAM序列為NGG,N指的是任意核苷酸[10] 。
Cas9實際上是一種核酸酶,它具有兩個獨立的核酸酶位點:一是HNH核酸酶位點,可以斷裂與crRNA互補的那條鏈;另一個是類似于RuvC核酸酶位點,可以裂解另一條非互補鏈。研究[12,13]發現Cas9家族的所有成員都具有相同的結構核心,這個結構核心的特征為一種具有兩個主葉(major lobe)-核酸酶結構域葉和a-螺旋葉的結構,其中核酸酶結構域葉是由HNH結構域、RuvC結構域以及與PAM序列相互作用的C末端結構域組成。這兩個主葉含有保守性的裂縫,而這些裂縫在核酸結合中發揮功能。Cas9蛋白本身以非活性的狀態存在,它的核酸酶活性被C末端結構域的方向所抑制,而且不能與DNA結合;但當其與crRNA-tracrRNA復合體結合時,這種蛋白的兩個主葉之間就會構建出一條作為DNA結合界面發揮功能的通道,從而在結構上激活Cas9,使得它能夠與靶DNA結合,PAM序列則將其核酸酶活性激活[12—14]。
2 CRISPR/Cas9系統的應用
目前,來自于產膿鏈球菌的Ⅱ型CRISPR系統已被改造為基因組定點編輯的工具。該系統具備兩個最基本的成分:一個是起識別作用的cr-RNA-tracrRNA序列,另一個是起切割作用的Cas9核酸酶。在對哺乳動物細胞進行基因編輯時,需要對Cas9蛋白編碼基因進行優化以及添加合適的核定位信號;此外,還需考慮是分別表達crRNA和tracrRNA還是嵌合成一條crRNA -tracrRNA,crRNA -tracrRNA又稱向導RNA( gR-NA)c15]。
自2012年首次證明CRISPR/Cas9系統可以在體外切割不同的DNA[10]以來,該系統已經成功地應用于細菌、酵母、番茄、擬南芥、大米、小麥、高粱、鼠、兔子、青蛙、果蠅、蠶、線蟲、斑馬魚及人類細胞等的基因編輯中[3]。與其他人工核酸酶相比.該RNA介導的基因編輯系統一個顯著的優勢就是可以同時在多個不同的DNA位點進行基因編輯。例如,Cas9和多個gRNAs的同時表達,可在DSBs間造成大片段的刪除和插入[16,17];可在鼠細胞中同時誘導3個基因的突變[18];在斑馬魚體細胞中導致5個基因的同時突變等[19]。
Cas9除了可以用于基因的編輯外,還可以對基因的表達進行調控。當Cas9核酸酶的兩個催化位點全部突變時,Cas9就變成了沒有核酸酶活性的蛋白質(稱為dCas9);研究表明,dCas9可以結合在基因的啟動子上來抑制基因的表達[20,21]。當gRNA結合在啟動子的上游時,無論其結合在DNA的哪條鏈上,dCas9都可以有效地抑制轉錄的發生;然而,當結合在轉錄起始位點的下游時,只有當gRNA結合在非模板鏈時,dCas9才能起抑制作用[20]。此外,dCas9還可以作為一個平臺招募各種效應因子結合在特異的基因位點上。例如,在人類細胞[22-25]和小鼠細胞[2q中,結合轉錄激活子或者轉錄抑制子的dCas9可以對基因的表達起到調節作用(圖2A)。并且,如果有2—10個gRNA介導多個轉錄因子結合在同一基因位點,可以進一步提高基因調節的效率,推測與轉錄因子之間的協同作用相關[22,23,26,27]。也有研究利用EGFP-dCas9融合物來識別包含重復序列的DNA位點,例如端粒[28](圖2B),若DNA位點包含有重復序列,則會結合有多個EGFP蛋白,為研究染色體的動力學和結構提供了一種有力的手段,并且使Cas9系統的應用不僅局限于基因的表達范圍。
這種簡便高效的CRISPR/Cas9技術填補了哺乳動物細胞內基于基因完全敲除而進行的大規模基因功能性篩選方法的空白,可以針對細胞全部基因或某些基因構建gRNA文庫,然后經過慢病毒載體轉染進行大規模的篩選。已有研究團隊針對人類的部分291個基因構建了包含有869種gRNA的文庫,并且成功地鑒別出了對于炭疽和白喉毒素毒性事關重要的宿主基因[29]。也有研究報道針對人類或小鼠的全部基因組構建了包含有64 000~87 000條gRNA的文庫,通過高通量的敲除技術對人類和小鼠細胞進行了基因的功能性篩選鑒定[30-32]。其技術路線大致相同,都是通過構建gRNA慢病毒表達載體來感染細胞,然后通過功能性篩選鑒定細胞,最后經過二代基因測序[33] 確定相關的基因。不同之處在于,有的團隊[31]將gRNA和Cas9串聯表達在同一個慢病毒表達載體上,通過感染將二者一次性轉入細胞;而有的團隊[30,32] 將二者分別克隆在不同的載體上,先獲得穩定表達Cas9的細胞,然后再進行gRNA慢病毒的感染。盡管RNA干擾(RNA interference,RNAi)文庫[34]也曾被廣泛應用于功能缺失型基因篩選,但是與gRNA文庫相比,RNA干擾只是下調某些基因的表達,常常造成不穩定的表型變化,并且文庫構建繁瑣,價格昂貴;而gRNA文庫的構建和篩選都非常的簡單,在基因的功能性篩選鑒定方面發揮了重要作用。
除此之外,CRISPR-Cas系統也可以用來快速地建立轉基因細胞和動物模型。一些人類疾病例如糖尿病、心臟病、精神分裂癥是與多個基因有關的,CRISPR多基因同時編輯的特點為這些疾病模型的建立提供了很好的方法[35,36]。利用傳統方法建立動物疾病模型要花費1年多的時間,而使用CRISPR技術只需幾周即可完成。而且,傳統方法只能用于傳統動物的建模,靈長類動物體內基因精確修飾一直是個難題,但最近一個研究小組在猴子體內利用CRISPR/Cas9系統實現了精確的基因修飾[37]為我們提供了一種研究人類疾病的新策略。
3 CRISPR/Cas9系統的脫靶效應及提高特異性的策略
脫靶效應幾乎是所有基因定點編輯技術所面臨的一個主要問題。在CRISPR/Cas9所介導的基因組定點編輯中,由于Cas9能夠“容忍”gRNA與靶序列之間的錯配,因此可能會導致脫靶效應,從而在非靶位點產生不需要的突變。為了評估CRISPR/Cas9系統的特異性,幾個研究小組設計出與靶序列互補區域有1—4個核苷酸錯配的gR-NA,然后再檢測這些gRNA能否介導Cas9在報告基因[38] 或內源性基因中發揮基因編輯作用[16 39]。研究結果表明,當錯配堿基比較靠近gRNA的5端時,gRNA仍能夠介導Cas9的結合與切割,但當錯配堿基比較靠近gRNA的3'端時,該系統就失去了基因編輯功能;提示靶基因3 '端的8~12個堿基對gRNA的識別起著關鍵作用。然而,僅根據錯配堿基在靶序列的位置并不能準確判斷單個或兩個核苷酸錯配所造成的影響,一些靠近3'端的錯配也可能不會影響Cas9的活性[38]。另外,Cas9在不同的細胞類型中脫靶效應可能也不同,有研究小組[40,41]在人類多能干細胞中利用CRISPR進行基因編輯,然后利用全基因組測序法檢測整個基因組,發現該系統,在多能干細胞中的特異性非常高,幾乎沒有脫靶效應。
盡管RNA介導Cas9核酸酶的特異性機制并不完全清楚,但是已有研究開始探索減少脫靶效應的方法,其中一個策略就是減少gRNA和Cas9在細胞中的表達量。研究發現gRNA和Cas9表達量減少之后,雖然脫靶效率明顯降低,但靶位點的突變也出現了下降[38]。所以在實際應用時需要權衡脫靶效應和打靶效應之間的關系,確定一個最佳的gRNA和Cas9的表達量。
另一個提高該系統特異性的方法是使用成對的切口酶,在Cas9的RuvC或NHN核酸酶位點引入DlOA或H840A的突變[42] ,形成只切割靶DNA一條鏈的Cas9切口酶,并且這種酶在某些位點引起的HR基因修復的幾率要大于NHEJc'5, 161。使用兩個gRNAs和Cas9切口酶在靶位點的臨近區域產生兩個切口[27,43,44],可以有效地產生缺失突變,該種方法已經被許多研究應用。由于單個Cas9切口酶也可以在特定的基因位點產生插入缺失突變,因此在基因編輯時為使兩個切口酶互相“依賴”于對方,即一個切口酶只有在與另一個切口酶靠得很近時才會有基因編輯的能力,可將一個形成二聚體時才有活性的核酸酶例如FokI融合到無核酸酶活性的dCas9上[45,46] 那么當兩個dCas9-gRNA聚合在一起時就可以產生二聚體Fokl,并且可以對DNA雙鏈進行切割,這樣就實現了dCas9的協同性作用。研究表明只有當Fokl核酸酶連接在Cas9蛋白的N端時才會起切割作用,并且對成對靶位點的PAM序列的方向也有要求,即只有當2個PAM序列在成對的gRNA的外側時才有活性(圖2C)。也許正是反應條件的苛刻性才使得其特異性大大提高,其打靶效率與脫靶效率的比值是原始的CRISPR系統的140倍[45] 。
最近有研究小組發現脫靶效應可以僅僅通過縮短gRNA的長度來降低,縮短的區域是與互補序列的5'端對應的位置[47]。這些縮短了的gRNA是由17或18個核苷酸組成的(稱為“tru -gR-NAs”);它們與全長的gRNA相比,不會造成靶位點的突變效率下降,但是脫靶效應明顯降低,并且對gRNA與DNA之間1個或2個核苷酸之間的錯配更加敏感。這種方法與成對的切口酶方法相比,不會遇到在一個細胞中表達多個gRNA的技術難題;tru-gRNA也可以與其他提高Cas9特異性的方法共同發揮作用,例如,tru-gRNA可以與成對切口酶共同使用來提高Cas9的特異性。
現有研究表明RNA介導的Cas9核酸酶的脫靶效應的發生幾率是可變的,并且很難預測。對于任意一個給定的靶位點,目前很難預測有多少錯配是能夠“容忍”的,也沒有完全明白為什么有些位點能夠被切割,而有些則不能被切割。盡管有證據證明DNA甲基化并不會抑制Cas9的基因組編輯[39],但是染色體的結構似乎對脫靶效應起了一定的作用。為了更加全面深入地了解Cas9的脫靶效應,需要建立一套標準的評價細胞中Cas9特異性的方法。
4展望
RNA介導的CRISPR/Cas9系統以其簡便性、高效性和經濟性等優點而被廣泛應用于生物醫學研究領域。CRISPR/Cas9作為第3代人工核酸酶,突破了模式生物的限制,可以在更多的物種中進行高效的遺傳操作,并且建立的gRNA文庫可以高通量地對基因進行功能性篩選,使得反向遺傳學可以在任何感興趣的有機體或細胞中進行。此外,免費的軟件使得設計gRNA的成本為零,可以方便靈活地設計合適的CRISPR/Cas9系統。現有研究表明,CRISPR/Cas9系統可以用于治療一些與基因相關的疾病[48] ,但將其應用于臨床之前仍有許多技術障礙需要克服。首先,Cas9編碼系統在體內必須能夠有效地轉到靶細胞當中。然而,Cas9蛋白相對分子質量很大,常用的來自產膿鏈球菌的Cas9蛋白的氨基酸就多達1 368個[49] 。為使Cas9蛋白基因能夠有效地插入病毒載體(例如腺病毒和逆轉錄病毒),可以通過刪除與蛋白功能無關的基因來人工構建低相對分子質量的Cas9蛋白。除了基因轉入方面的問題,CRISPR/Cas9用于基因治療最大的障礙是Cas9的特異性。當用于大量細胞時,即使Cas9具有很高的特異性,也很難完全避免由于脫靶效應而帶來的危害。此外,如何避免不利的免疫反應也很重要,一個有效的方法是Cas9的相關肽片段的人源化。最后,CRISPR/Cas9系統用于基因缺陷疾病的治療也需要其他相關技術的支持,如安全有效、特異性強的體內載體的開發。
盡管CRISPR/Cas9系統在應用于臨床之前還面臨著很多困難,但它可將RNA、DNA和蛋白質聚集在一起的性質,以及其簡便、高效和多個靶位點同時編輯的特點預示著其有望用于臨床相關疾病的治療,相信隨著CRISPR/Cas9及其相關技術的不斷發展,將會對人類遺傳性疾病的治療產生巨大的影響。