朱曉菲,黃嬌媚,原 昊,萬 逸,3
(1.海南大學 海洋學院/南海海洋資源利用國家重點實驗室,海口 570228; 2.海南大學 信息與通信工程學院,海口 570228; 3.中國科學院 海洋研究所/山東省腐蝕科學重點實驗室,山東 青島 266071)
Clustered Regularly Interspaced Short Palindromic Repeats-associated gene(CRISPR-Cas)全稱為成簇的規律間隔的短回文重復序列,最初于1987 年在大腸桿菌中發現。ISHINO Y 等[1]在研究大腸桿菌iap(堿性磷酸酶)基因時,在其編碼區3′端側翼序列中發現長度為29 bp 高度保守的重復核苷酸序列,重復序列的間隔為32 bp。隨著對該序列的深入研究,發現該重復序列廣泛存在于古細菌和細菌的基因組中,直到2002 年JANSEN R 正式命名該重復序列為CRISPR 序列,除此之外,該研究還發現CRISPR基因的側翼序列中有4 種同源基因(CRISPR-associated gene):cas1、cas2、cas3、cas4,這些基因編碼一些功能蛋白,與CRISPR有功能相關性[2]。隨著深入研究,CRISPR-Cas 系統的功能的免疫功能逐漸被發現,CRISPR-Cas系統類似于真核生物的RNA 干擾(RNAi)[3],后經證實是細菌對噬菌體等病原生物的獲得性免疫作用[4]。CRISPR-Cas 系統在細菌對抗噬菌體侵入時分為3 個階段。第1 階段為適應階段:在噬菌體侵入細菌時,Cas1-Cas2 蛋白復合物根據前間隔序列臨近基序(PAM)位點將噬菌體靶DNA(protospacer)切割并將這段靶DNA 序列插入到CRISPR 重復序列5′端的末尾,產生新的間隔序列(spacer)。第2 階段是基因的表達和處理階段,間隔序列(spacers)和CRISPR 重復序列共同進行轉錄,形成初轉錄產物pre-CRISPR RNA(pre-crRNA),后由Cas 蛋白復合物對轉錄初產物進行切割,得到成熟的包含間隔序列(spacers)和重復序列的CRISPR RNAs(crRNAs)。不同的CRISPR-Cas 系統對pre-crRNA 的處理存在差異,有些由多個Cas 蛋白亞基處理,有的由單個Cas 蛋白處理,有的借助于宿主細胞的RNase。第3 階段為干擾階段,在guide RNA(crRNA 和tracrRNA 合成的引導RNA)的引導下,利用單獨Cas 蛋白或是Cas 蛋白復合物對靶DNA 或RNA 進行切割。第一類CRISPR-Cas 系統在切割靶鏈時需要多個Cas 蛋白復合體的參與,而第二類CRISPR-Cas 系統在切割靶DNA 或RNA 時只需要單個Cas 蛋白加guide RNA(gRNA)即可完成對靶鏈的切割。因此,第二類CRISPR-Cas 系統成為現在基因編輯中重要的工具。
Cas 蛋白作為CRISPR-Cas 系統中的切割靶鏈的效應部分,是尋找新CRISPR-Cas 系統的重點。目前,基于生物信息學手段發掘Cas 系統主要分為2 種方法,一種是基于對已知Cas序列建立隱馬爾科夫模型(Hidden Markov Model,HMM)對細菌和古細菌基因組進行分析(圖1a)。另一種是基于CRISPRCas 系統中的標志序列對細菌和古細菌的基因組進行Cas基因的查找(圖1b)。

圖1 基于生物信息學手段發掘Cas 系統的2 種方法Fig.1 Two methods to explore CRISPR-Cas system based on bioinformatics
對細菌和古細菌的CRISPR-Cas 系統發掘,所有的生物信息學分析都需要基于它們的基因組。CRISPR-Cas 系統廣泛存在于細菌和古細菌中,在收集數據時需要分為兩部分。一類是基因組數據庫的收集,可以通過NCBI,EBI 等數據庫進行細菌和古菌的全基因組數據收集和批量下載[5]。第二類是宏基因組,宏基因組由于數據庫龐大,在Cas 酶發掘中收集方式多樣,多數通過各種野外研究發現的數據進行基因組分析[6],宏基因組數據需要組裝后才可以進行下一步分析。
1.1 建立隱馬爾科夫模型進行CRSPR-Cas 的生物信息學發掘
1.1.1 讀取基因組開放閱讀框(Open Reading Frame, ORF)開放閱讀框是指DNA 序列中具有編碼蛋白質潛能的序列,從起始密碼子開始,終止于終止密碼子。通過讀取開放閱讀框,可以從細菌和組裝好的古細菌基因組中識別出所有可以編碼蛋白的潛在基因序列,目前應用于識別原核生物基因組開放閱讀框頻率較高的預測軟件有Prodigal[7]、Glimmer[8]和GeneMark[9]等,軟件優缺點對比見表1。其中,Prodigal 是在發掘新Cas 酶中明確提及使用過的開放閱讀框識別軟件[10]。準確的識別開放閱讀框并對開放閱讀框的位置進行準確定位有助于后續對CRISPR 序列定位后二者共同分析。

表1 ORF 預測軟件對比Tab.1 ORF prediction software comparison
1.1.2 對已知的Cas 酶建立隱馬爾科夫模型隱馬爾科夫模型是一種統計分析模型,近年來被廣泛應用到各種生物信息學分析中,主要用于描述某一核苷酸序列從其特定的祖代遺傳而來的概率。根據現有的序列通過計算機對序列的分析建立隱馬爾科夫模型,進而推測出最有可能出現的祖代序列[11]。
在用HMMER 軟件建立隱馬爾科夫模型之前,需要對準備建立模型的已知Cas 蛋白序列進行多序列比對。目前應用于多序列比對有以下幾種軟件,分別為CLUSTAL W、MUSCLE、T-COFFEE、DIALING2、MAFFT 等,軟件速度MUSCLE 最快,對比準確性MUSCLE 最高[12]。通過對已知Cas 酶的多序列比對,得到STOCKHOLM(sto)文件,作為接下來的模型建立輸入文件。
HMMer 是基于隱馬爾科夫模型建立的生物信息學分析軟件[13],有網頁版和本地版,通過hmmbuild指令和Cas 蛋白多序列比對結果輸入文件建立已知Cas 蛋白的隱馬爾科夫模型,hmmsearch 指令和建立的Cas 蛋白模型輸入文件可以對預測出的開放閱讀框文件進行序列分析,進而推測出可能是Cas 蛋白的編碼序列。
1.1.3 CRISPR 序列識別CRISPR 序列包含間隔序列和重復序列,是CRISPR-Cas 系統中另一個重要的組成部分。應用于發掘CRISPR-Cas 系統的目前有3 種,分別為CRISPRDetect[14]、CRISPR Finder[15]和PILER-CR[16]。其中,CRISPR Finder 應用最廣[6,10,17],可以準確識別出長度短的CRISPR 序列,在升級后不止可以識別CRISPR 序列,還可以通過自帶的隱馬爾科夫模型對輸入的序列進行Cas 蛋白的預測[18]。識別CRISPR 序列軟件優缺點對比見表2。

表2 CRISPR 序列識別軟件對比Tab.2 Comparison of CRISPR sequence recognition software
1.1.4 篩選在對基因組進行生物信息學分析后,得到軟件預測出的Cas 蛋白和CRISPR 序列。對得到的候選序列進行篩選,篩選條件有以下3 條:1)同時含有Cas1 和CRISPR 序列;2)與Cas1 相鄰的10 個ORF 之一包含1 個大于800 個氨基酸的未被鑒定的蛋白序列(通過隱馬爾科夫模型預測出的);3)在同一基因組列中沒有已經被鑒定出的包含Cas基因的干擾模塊[10]。
1.2 以Cas1 和CRISPR 序列為標志序列進行CRISPR-Cas 系統的生物信息學發掘JANSE 等人的研究表明,有些CRISPR 序列上下游無編碼Cas 的序列,有些編碼Cas 酶的序列上下游無CRISPR 序列[2],因此,以Cas1 蛋白和CRISPR 序列為標志序列分別進行識別可以有效搜尋到所有候選序列。此種方法是根據已經發現的Class2 CRISPR-Cas 系統的結構特征進行發掘。
1.2.1 選取標志序列對數據庫進行搜索由于Cas1 序列在CRISPR-Cas 系統中高度保守[19],且是在CRSIPR-Cas 系統中普遍存在的編碼序列,因此根據Cas1 序列進行BLAST 可以有效找出可能含有CRISPR-Cas 系統的基因組。另一種可選的標志序列為CRISPR 序列,CRISPR 序列是CRISPR-Cas 系統中的重要組成部分,因此也可以作為準確識別CRISPR-Cas 系統的序列,為了準確識別CIRSPR 序列,可以選取上述CRISPR 識別軟件,通過CRISPR 序列找出的候選序列是通過Cas1 進行序列篩選的2 倍[20],這說明很多CRISPR-Cas 系統是缺乏適應模塊的。
1.2.2 篩選對BLAST 識別出的Cas1 序列或CRISPR 識別軟件識別出的CRISPR 序列的上下游進行分析,尋找是否有其他編碼Cas 蛋白。使用GeneMark 軟件中MetaGeneMark_v1.mod 模型[20]對序列進行開放閱讀框識別[21]。
對于以Cas1 為標志序列識別出的序列,通過CRISPR-Cas 分類標準來檢查其上下游是否存在其他的Cas基因[22]。對于以CRISPR 為標志識別出的序列,在識別出的CRISPR 序列的上下游20 kb[23](有些研究是10 kb[23])以內識別可能編碼蛋白的序列。由于Cas9 蛋白和Cpf1 蛋白都由大于1 000 個氨基酸構成[24?26],所以選擇氨基酸殘基大于500 的編碼序列(有些研究是大于700 aa[23]或750 aa[5]作為新Cas 蛋白的候選序列進行下一步分析)。
確定新Cas 蛋白與標志序列和CRISPR 的位置關系,新Cas 蛋白需要在標志序列(Cas1)的4 個基因以內。多數的CRISPR-Cas 系統中Cas 蛋白與CRISPR 序列共同出現的頻率很高,限制新的Cas 蛋白至少有50%[23]或70%[5]位于CRISPR 序列上下游20 kb 以內。
在發掘出新的CRISPR-Cas 系統后,需要對其進行生物信息學分析,以便了解Cas 蛋白的理化性質并進行家族分析。對CRISPR 序列進行分析可以了解該系統對抗的入侵質粒噬菌體等,并有助于研究其切割位點。對識別出的Cas 蛋白序列和CRISPR 序列進行分析流程見圖2。

圖2 對識別出的Cas 蛋白序列和CRISPR 序列進行分析流程示意圖Fig.2 Schematic diagram of the analysis process of the identified Cas protein sequence and CRISPR sequence
2.1 對Cas 蛋白的進一步分析
2.1.1 Cas 蛋白聚類、同源性分析對識別出的蛋白進行聚類分析,聚類分析的目的是根據已有的蛋白序列分析預測新蛋白質序列[27],并對研究蛋白質的起源和家族分析有重要意義[28],將Orthomcl[29]和MCL[30]或作為新Cas 蛋白的聚類分析軟件。
為了去除基因組中可能造成偏差的聚類序列,對預測出的Cas 蛋白分析,通過發掘出的Cas 序列和PSI-BLAST 軟件[31]對NCBI 的非冗余(nr)蛋白和宏基因組(env_nr)蛋白數據庫進行檢索,利用HMM 對UniProt 數據庫進行檢索[32]可得到已知的其他同源蛋白序列[5]。使用HH-suite[33]的HHpred 對發掘出的Cas 蛋白進行遠距離的同源蛋白檢索,要求新的Cas 蛋白能夠檢索出10 個同源效應子[23]。
2.1.2 對發掘出的Cas 蛋白進行進化樹建立對發掘出的Cas 蛋白和搜索出的同源蛋白建立進化樹,比較不同Cas 蛋白之間親緣關系,是分析新發掘出的Cas 蛋白的常用分析方法之一。通常進化樹建立使用軟件有RaxmL[34]和PhyML[35]等,上述建立進化樹軟件輸入文件為PHYLIP(.phy)格式。再使用FigTree和iTOL[36]軟件實現進化樹的可視化。
2.1.3 對預測出的蛋白進行結構域和三級結構預測為了進一步發掘出Cas 蛋白序列特點,進行結構和結構域的預測分析。由于Cas 蛋白進化速度很快,要求識別Cas 蛋白結構域的軟件必須能進行精確識別[19,37]。對發掘出的Cas 蛋白進行二級結構預測可以使用JPred4[38]、CD-Search[39]或HH pred[40]。蛋白質的三級結構預測軟件分為同源建模法與穿線法,同源建模法預測的原理為相似的氨基酸序列對應著相似的蛋白質結構,如軟件Phyre2[41]。穿線法預測通過已知蛋白的結構拓撲進行預測,不相似的蛋白也能有相似的結構,如軟件I-TASSER[42]。
2.2 對CRISPR 序列進行分析
2.2.1 間隔序列(spacers)的識別識別CRISPR 序列中的間隔序列(spacers)有助于尋找對抗入侵的質粒和噬菌體。識別CRISPR 序列的CRISPRFinder 等軟件識別出的間隔序列根據組裝基因組數據確定。相關樣品的短DNA 或宏基因組識別間隔序列可使用CRASS 軟件[43]。
2.2.2 前間隔序列(protospacer)分析前間隔序列作為CRISPR-Cas 系統進行序列切割在噬菌體或質粒上與間隔序列對應的靶序列,對前間隔序列的識別要求高相似度。查找噬菌體或質粒中的前間隔序列多使用BLAST 軟件中的blastn 程序。針對宏基因組數據使用task blastn-short 程序[5]對宏基因組組裝數據庫進行前間隔序列識別,要求與間隔序列(spacer)的錯配堿基小于等于1,對于搜索中可能出現的CRISPR 序列中的間隔序列干擾,通過其重復性去除。除此之外,還可使用megablastn[44]程序,對病毒的非冗余數據庫和原核生物基因組數據庫進行搜索。此方法要求前間隔序列與間隔序列長度L 最大錯配數限制在區間(0,√l?22)[20]。
2.2.3 前間隔序列臨近基序(PAMs)分析前間隔序列臨近基序(PAMs),是一些Class2 CRISPRCas 系統,如Cas9 蛋白識別靶序列的識別位點,通常在靶DNA 的3′末端作用,有研究猜測PAMs 與DNA解旋作用有關[45]。PAMs 的識別通過前間隔序列側翼序列的對齊區域進行查找,PAMs 的可視化和DNA圖形展示通過WebLogo[46]軟件進行。在前間隔序列和間隔序列的對齊過程中,如果出現一個間隔序列與多個不同位置的具有不同側翼序列前間隔序列匹配,則前間隔序列和下游核苷酸的每一種不同組合都應考慮進PAMs 的計算中[5]。
為了準確分析發掘出的CRISPR-Cas 系統和新的Cas 蛋白,在對其進行進一步分析前,應根據新的CRISPR-Cas 系統進行分類,CRISPR-Cas 系統分類可根據近期發表的分類方法進行[22],根據不同type 和subtype 的標志基因,如Cas3、Cas9和Cas12等對識別出的>500 aa 的CRISPR-Cas 系統進行分類。
CRISPR-Cas 系統分類方法有根據獲得模塊(Cas1-Cas2)進行分類、根據CRISPR 的序列相似性或結構相似性進行分類、根據Cas1 發生進行分類、根據CRISPR-Cas 基因座結構分類、根據效應模塊進行分類、根據亞型分類、根據物種分類。MAKAROVA 等2015 年的研究對比了不同CRISPRCas 系統分類方法的不同(圖3),結果表明,通過效應模塊進行CRISPR-Cas 系統分類通過蛋白質的相似性能在聚類處理后的庫中搜尋到更多結果,通常能夠直接對應已經發現的各種亞型[22]。因此,MAKAROVA 等人基于效應模塊建立了一種CIRSPR-Cas 系統的自動注釋的方法。Cas1-Cas2組成的獲得模塊作為最普遍的序列未被選擇的原因是其雖與Cas1 系統發育樹密切相關,但與CRISPR-Cas 基因座結構相關性弱。他們建立的這種分類方法的精確度能達到0.998。
CRISPR-Cas 系統分為兩大類(圖4):一類(Class1)是多個Cas 蛋白與crRNA 共同作用切割把鏈的CRISPR-Cas 系統,另一類(Class2)是以Cas9 為代表的單亞基與crRNA 共同作用切割靶鏈的作用系統。目前的分類方法根據不同的特征基因將Cas 蛋白分為6 種類型,其中Class1 分為3 種類型,Type Ⅰ:以Cas3 或Cas3 基因的變異體為標志基因,在細菌和古細菌中都有廣泛分布;Type Ⅲ:以Cas10基因為標志基因,編碼多亞基蛋白并包含一個RNA 識別區域,Type Ⅲ在細菌和古菌中也都有分布;Type Ⅳ,缺少編碼Cas1-Cas2基因,且部分編碼蛋白遠離CRISPR 序列,此種蛋白多分布于細菌中。Class2 分為3 種類型:Type Ⅱ:以Cas9基因為標志基因,在細菌和古菌中都有分布;Type Ⅴ:以Cas12和Cas14基因為標志基因,臨近Cas1-Cas2 和CRISPR 序列,并與TnpB 蛋白有高度相似性,此種類型大多數分布于細菌中;Type Ⅵ:以Cas13位標志基因[22,47]。

圖3 CRISPR-Cas 系統不同分類方法的比較[22]Fig.3 Comparison of different classification methods of CRISPR-Cassystem[22]

圖4 CRISPR-Cas 系統分類圖[47]Fig.4 Diagram of classification of CRISPR-Cas systems[47]
新的分類和命名方法根據序列相似性、同源序列分析和上下游序列比較進行CRISPR-Cas 系統的分類。Class2 中,包含了種類Ⅱ、種類Ⅴ和種類Ⅵ及他們的變異體(最新分類),其中type Ⅱ的Cas9 蛋白包含HNH 和RuvC-like 兩種結構域,分別切割靶DNA 的兩條鏈。typeV 的Cas12 蛋白只包含RuvClike 結構域負責切割DNA 的兩條鏈。TypeⅥ的Cas13 蛋白包含2 個HEPN 結構域,除此之外,還有非特異性的核糖核酸酶活性。
筆者以生物信息學手段為重點,將基于微生物基因組CRISPR-Cas 系統發掘細分為:1)基于隱馬爾科夫模型的發掘方法:i)開放閱讀框預測,ii)收集已知的Cas 蛋白建立隱馬爾科夫模型,iii)CRISPR 序列識別;2)以Cas1 和CRISPR 為標志序列進行CRRISPR-Cas 發掘:i)通過標志序列Cas1 或CRISPR 序列對基因組進行檢索,ii)對標志序列的上下游蛋白進行分析尋找可能存在的Cas 酶。提供了在識別出新CRISPR-Cas 系統后,對新CRISPR-Cas 系統的Cas 酶進行的聚類分析(BLAST、HHpred 等軟件)、進化樹建立(RAxml 等軟件)、結構域和三級結構預測(JPred4 等軟件)分析方法;3)對新CRISPR-Cas 系統中,CRISPR 序列的間隔序列(CRASS 等軟件)、前間隔序列(blastn 等)前間隔序列臨近基序分析。
然而,不同的分析方法在實踐應用中會有相應的限制。Cas 酶發掘方面,通過隱馬爾科夫建立模型的手段只能根據已知的Cas 酶預測出與已知相似的類型,不能預測出序列差別大的兩種不同類型Cas 蛋白。通過標志序列Cas1 和CRISPR 序列進行的新Cas 酶發掘對CRISPR-Cas 系統的結構有嚴格要求,發掘出的CRISPR-Cas 系統必須在上下游20 kb 以內含有標志序列。隨著新發現的Class2 CRISPR-Cas14中Cas 蛋白只有400~700 個氨基酸[6],傳統認為,單個蛋白可以產生靶向切割作用的Cas 蛋白需要大于950 個氨基酸殘基的觀點被顛覆,因此,對于標志基因上下游>700 氨基酸殘基的蛋白篩選限制條件應當更新。此外,Cas 蛋白進化分類方面隨著Cas12 發現可能與TnpB 蛋白轉座有關,提供了不同Cas 蛋白起源不同的新觀點。CRISPR 序列識別方面,有些軟件并不能展示出DR 序列或是序列方向,因此,可能會造成PAM 分析和結構分析的誤差。
CRISPR 系統分類上看,隨著近年來CRISPR-Cas 系統研究的不斷發展,分類方法應不斷更新。主要原因如下:1)隨著CRISPR-Cas 生物信息學發掘工具的不斷發展,已經發現靶RNA 切割的Ⅵ型和Ⅴ型CRISPR-Cas 系統,并有個Ⅴ型的亞型被發現。有研究表明,Ⅴ型CRISPR-Cas 系統是從轉座子TnpB 核酸酶通過基因座轉移和重復進化產生,因此Ⅴ型CRISPR-Cas 系統出現了大量的突變體,并且有相當一部分進化成了獨立的亞型[48]。2)近年來發現的CRISPR-Cas 系統中,被認為在細菌或古菌中執行不同于獲得性免疫的功能[49],不含有靶鏈切割的能力,這些被認為功能不同的CRISPR-Cas 序列通常編碼于轉座子等可以動的編碼區中[48,50]。3)多種涉及到CRISPR-Cas 系統的標志基因與信號傳遞和調控作用有關[51?52]。
CRISPR-Cas 系統作為定向基因編輯的革命性技術,擁有巨大的潛力和廣闊的研究前景。已經發現的Class2 CRISPR-Cas 系統可以定向切割靶單鏈DNA/RNA 和靶雙鏈DNA,然而,至今為止尚未有科學家發現可切割雙鏈RNA 的CRISPR-Cas 系統。隨著越來越多的微生物和宏基因組數據被提供、越來越精進的基因組測序以及不斷完善的生物信息學方分析法,會有更多的CRISPR-Cas 系統被發現并應用于基因組的定向編輯,幫助人們了解分析動植物基因功能。