孫 瑜,蔡小寧,陳德富,高 山*
(1.南開大學生命科學學院,天津300071;2.南京曉莊學院,南京 211171)
?
NgAgo-gDNA基因組編輯系統(tǒng)的成功及啟示
孫 瑜1,蔡小寧2,陳德富1,高 山1*
(1.南開大學生命科學學院,天津300071;2.南京曉莊學院,南京 211171)
韓春雨等發(fā)明的DNA指導的基因組編輯系統(tǒng)NgAgo-gDNA,比原有的RNA指導的基因組編輯系統(tǒng)CRISPR-Cas9在靶向特異性(防脫靶),反應可控性和基因組編輯范圍等方面都有顯著的改進。NgAgo-gDNA不是一項簡單的改進,是一項具有開拓性的工作,沿著這條研究路線,可以繼續(xù)開發(fā)出更先進的基因組編輯系統(tǒng)。該研究充分體現(xiàn)了生物信息學,特別是大數(shù)據(jù)挖掘在未來生命科學研究中的重要地位。本文僅從生物信息學角度,談談這項研究的價值、意義以及可能引發(fā)的相關研究方向。
基因組編輯;NgAgo;CRISPR;Cas9;RNAi;全長轉錄組;PacBio
2016年5月2日,Nature Biotechnology報道了韓春雨等發(fā)明的DNA指導的基因組編輯(Genome editing)系統(tǒng)NgAgo-gDNA[1],NgAgo是格氏嗜鹽堿桿菌(Natronobacterium gregoryi)AGO蛋白(Argonaute)的簡稱,其本質是一種核酸內切酶。NgAgo酶根據(jù)指導DNA的定位,可以有效地對基因組目標區(qū)域進行編輯。這項研究不能僅僅看作是對現(xiàn)有的RNA指導的基因組編輯系統(tǒng)CRISPR-Cas9的技術改進,其能否商業(yè)化以替代CRISPR-Cas9也不是最重要的。NgAgo-gDNA只是一個新的開始,沿著這條研究路線,很可能開發(fā)出更先進的基因組編輯系統(tǒng)。一項研究的意義在于研究者的原始出發(fā)點以及在實驗和分析中體現(xiàn)的智慧,更為重要的是它能否拓寬相關領域的研究思路并開辟新的研究方向。結合作者在多個項目中的實際工作經(jīng)驗,本文談談這項研究的意義以及未來的發(fā)展方向。
一個基因組編輯系統(tǒng),可以簡單分為負責識別(目標)靶序列的一段核酸(DNA或RNA)序列和負責切割的酶兩個部分(見圖1)。CRISPR-Cas9系統(tǒng)中是單鏈RNA(Single-stranded guide RNA,簡稱sgRNA或gRNA)指導Cas9蛋白切割;NgAgo-gDNA系統(tǒng)中是5’端磷酸化的單鏈DNA(Single-stranded guide DNA,簡稱gDNA)指導AGO蛋白切割。靶序列識別的特異性是關鍵問題,酶的效率雖然也重要但是次要問題。NgAgo-gDNA主要的技術進步(按照重要性)包括以下幾點:
1) 5'端磷酸化的單鏈DNA在哺乳動物細胞中幾乎不存在,這保證了NgAgo不會被內源的DNA序列誤導,靶向錯誤的基因組位點,稱作脫靶(off-target)。點評:這說明轉基因技術并不是絕對安全;另外引出一個問題,古細菌內是否有單鏈DNA,如果沒有,這個酶在古細菌中是怎么工作的?
2) gDNA一旦與NgAgo結合,就不允許其他DNA片段插進來替換,這又從另一方面保證了不脫靶。點評:工作極為嚴謹,考慮到了酶與底物的動態(tài)作用關系。
3) NgAgo-gDNA系統(tǒng)中的gDNA是24 bp長度,CRISPR-Cas9系統(tǒng)中的sgRNA是19 bp長度,24 bp大大提高了目標位點在基因組上的特異度。點評:21 bp以上長度的序列才能保證其在大型基因組中的唯一性,19 bp實用價值很低,PCR引物設計通常也要21 bp以上;現(xiàn)在各類升級版的CRISPR-Cas9系統(tǒng)已出現(xiàn),但NgAgo-gDNA起點高于CRISPR-Cas9。
4) 在NgAgo-gDNA系統(tǒng)中,指導序列-靶序列錯配容忍度很低,錯配一個堿基即減少73%~100%的酶切效率,三個錯配則完全沒效果。另外,有實驗證明gDNA的第8到11 bp位置最重要,這個有待NgAgo的蛋白質結構數(shù)據(jù)(見圖2)來解釋。點評:前四點從多個角度最小化脫靶可能性。
5) CRISPR-Cas9系統(tǒng)中的sgRNA需要由質粒轉入細胞并表達,而后形成一定結構才能工作,可控性很差。舉一個最典型例子,如果crRNA富含GC堿基,它會在單鏈內形成堿基互補配對,即莖環(huán)結構,GC堿基配對之間形成三個氫鍵,因此莖環(huán)很難打開,嚴重影響crRNA與靶序列結合(圖1a)。NgAgo-gDNA系統(tǒng)中的gDNA直接轉入細胞,時間和濃度較CRISPR-Cas9系統(tǒng)更可控,但是,NgAgo酶依然要通過表達載體導入,其表達效率等問題依然存在。gDNA理論上不會產(chǎn)生莖環(huán)結構(這個還有待深入研究),有實驗證明NgAgo-gDNA系統(tǒng)在富含GC堿基區(qū)域表現(xiàn)更好(原文獻[1]中圖4f)。點評:向大量細胞遞送gDNA不是那么簡單,影響RNAi進入臨床的一個主要問題就是遞送(Delivery)問題。
6) Cas酶僅僅是剪開雙鏈DNA(圖1b),NgAgo酶不僅剪開DNA,而且同時去除幾個堿基,徹底讓這個基因的功能喪失。點評:細胞內有一些連接酶,可能會把切斷的地方連接上,使基因得到恢復。
7) CRISPR-Cas9系統(tǒng)要求指導序列后面有一個特征三堿基序列(即PAM序列)才能工作,限制了它的作用范圍。點評:NgAgo-gDNA系統(tǒng)不要求PAM序列,因而擴大了可以編輯的區(qū)域,這點改進最不重要。
該研究起始于另外兩個AGO蛋白(TtAgo和PfAgo),它們需要在65 ℃工作。韓春雨等首先通過生物信息學常用的比對軟件PSI-BLAST,根據(jù)TtAgo和PfAgo的已知序列,搜索NCBI NR非冗余蛋白質序列數(shù)據(jù)庫[2],找到了很多相似的蛋白質序列,都是來自不同物種的AGO蛋白。而后,通過一系列生物信息分析和少量實驗,最終找到了可以在37 ℃工作的NgAgo酶。點評:這就是典型的大數(shù)據(jù)挖掘,這個數(shù)據(jù)還不夠大,第二代測序和第三代測序數(shù)據(jù)更是海量。PSI-BLAST得到的相似蛋白質序列可能成千上萬,不可能逐個去做實驗,必須通過生物信息學方法進行初步篩選,初步篩選后得到的少量候選蛋白質才可能進行實驗驗證,文章沒有介紹這個篩選過程,估計應該是經(jīng)驗方法,沒有采用當前主流的機器學習算法。如果篩選找不到符合條件的酶,還可以走這條路線:找到溫度最接近37 ℃的AGO酶,設計點突變改造。具體來說,就是將酶上每個氨基酸位點當做特征,構建數(shù)據(jù)集進行機器學習分類或擬合,再通過特征選擇篩選出關鍵位點進行突變設計[3-8]。點評:酶的改造或設計對生物信息學依賴很大。gDNA的24 bp長度的確定(原文獻[1]中圖3d),得益于巧妙地利用了質粒中增強型綠色熒光蛋白(Enhanced green fluorescent protein,簡稱EGFP)的亮度變化來指示酶切割效率,從20~27 bp幾種長度中選擇了亮度最低(即切割效率最高的)的24 bp長度。這個實驗設計非常簡單,僅使用了蛋白質印跡法(Western blot)精度就夠了,但24 bp與25 bp結果亮度差異不大。無論是蛋白質印跡法還是定量PCR方法都受實驗條件和人工操作影響較大,高通量測序可以獲得更為精準的比較結果。

(a) sgRNA的結構 (b) sgRNA結合到目標基因 圖1 CRISPR-Cas9簡單原理Fig. 1 How CRISPR-Cas9 works
注:A:sgRNA(single-stranded guide RNA)包括至少一個crRNA(CRISPR-derived RNA,紅色)和一個tracrRNA (trans-activating crRNA,藍色)。如果crRNA中GC含量過高,會形成莖環(huán)結構,嚴重影響sgRNA結合到基因組目標區(qū)域;B:sgRNA(紅色)指導Cas9酶在與crRNA配對的靶序列(黑色)剪切雙鏈DNA。sgRNA要求目標基因后面有一個特征三堿基序列(即PAM序列)才能工作。
Notes:A:a sgRNA (single-stranded guide RNA) contains at least one crRNA (CRISPR-derived RNA, in red color) and one tracrRNA (trans-activating crRNA, in blue color). A stem-loop structure may form from a crRNA due to its high GC content, which could prevent the binding of sgRNA to the target region on the genome.
B:a sgRNAs (in red color) guides an Cas9 enzyme to cleave double stranded DNA of the target gene (black). This system requires a featured three base (PAM) sequence to work.
下一步生物信息工作可以立刻展開,南開大學阮吉壽、楊建益和高山等通過串線法(Threading)解析了NgAgo酶的結構(見圖2),沿著這條研究路線,可以深入了解gDNA指導以及靶序列切割的機制;通過序列比對以及結構比對,阮吉壽等又獲得了很多有相似功能的酶,這些工作幾天內即可完成,這是傳統(tǒng)單純使用實驗手段望塵莫及的。當務之急是找到更多具有相似功能的酶,利用這個已經(jīng)成熟的流程或許會有更多新的發(fā)現(xiàn)。點評:國內的生物信息研究團隊或者個人應該搶先進行大數(shù)據(jù)挖掘,充分發(fā)揮我們國家人多的特點,保持這一領域優(yōu)勢,防止國外高水平實驗室搶在前面。另外,實驗的跟進也很重要,南開大學陳德富等根據(jù)韓春雨提供的NgAgo酶的動物表達載體構建了植物表達載體。
CRISPR-Cas9與NgAgo-gDNA中用到的生物學機制,普遍認為是來自細菌和古細菌在長期演化過程中形成的一種適應性免疫防御機制,即識別并切割入侵的病毒或外源DNA。NgAgo-gDNA中使用了AGO蛋白,與RNA干涉(RNA interference,簡稱RNAi)有相似機制,這是更早獲得廣泛研究的機制,也認為是細胞對于外源病毒的一種防御機制。NgAgo-gDNA是gDNA指導切割外源的雙鏈DNA;RNAi是小干擾RNA (Small interfering RNA,簡稱siRNA)指導切割外源的雙鏈RNA。細胞內還有更多相似的機制,從這個角度繼續(xù)挖掘,是一個很重要的研究方向。相關的基礎問題有AGO酶作用的核酸復合體種類的特異性(DNA-DNA、DNA-RNA或RNA-RNA);序列特異性(互補、回文以及兩端的堿基種類和修飾);細胞內還有更多的酶切割作用,例如miRNA成熟需要切割單鏈RNA中的莖環(huán)結構,都有什么普遍規(guī)律?AGO蛋白的故事還沒有完,與AGO具有相同結構域(Domain)或模體(Motif)的DNA或RNA結合蛋白(DNA-binding or RNA-binding proteins)還有多少?有沒有RNA指導的AGO酶切割雙鏈DNA?是否存在某些生物利用AGO酶對自身基因組進行編輯?AGO從低等生物到高等生物中的廣泛存在,又賦予了它進化上的巨大研究價值。例如,切割雙鏈RNA病毒的AGO酶和切割雙鏈DNA病毒的AGO酶的宿主是否和病毒存在共進化關系?當前,普遍認為宿主利用AGO對病毒切割是一種免疫機制,反之,病毒是否利用AGO切割宿主以整合進自己的某些片段?

圖2 通過串線法預測的NgAgo酶結構Fig. 2 The structure of NgAgo predicted using the threading method
這里再介紹兩個RNAi相關研究的新方向,都是基于當前高通量測序技術的。第一個是新的病毒檢測方法。2009年,國際馬鈴薯中心的Jan Kreuz首先在國際上提出small RNA高通量測序可以作為一種通用手段來檢測動植物DNA或RNA病毒[9]。這種方法具有靈敏度高、能夠檢測新病毒、不需要已知序列信息和不需要純化培養(yǎng)等優(yōu)點。康奈爾大學費章君和高山等開發(fā)了第一個基于small RNA高通量測序的病毒檢測軟件,可以大規(guī)模自動化檢測動植物攜帶的病毒組[10-13]。南開大學高山在2013年國際微生物大會(WCM 2013)上提出small RNA測序可以用于臨床病毒檢測[14],并通過大數(shù)據(jù)挖掘檢測到六類嚴重危害人類健康的病毒[15],分別是EBV、HBV、HCV、HIV、HPV和SMRV。另一個研究方向是通過RNAi中產(chǎn)生的siRNA雙鏈體(siRNA duplex),尋找病毒影響細胞的機制。費章君等發(fā)現(xiàn)病毒siRNA片段主要集中于21、22、23和24 bp長度,其中21和22 bp來自病毒,23和24 bp來自宿主[10];高山等分析植物siRNA duplexes主要集中于21 bp而且有對稱的2 bp突出(Overhang);根據(jù)昆蟲small RNA測序大數(shù)據(jù)挖掘結果,高山等發(fā)現(xiàn)動物可能還存在以33 bp為中心的RNA降解或切割機制(未發(fā)表)。
CRISPR-Cas9中的crRNA發(fā)現(xiàn)于1987年,日本微生物學家石野良純(Yoshizumi Ishino)在克隆大腸桿菌堿性磷酸酶同工酶(Isozymes of alkaline phosphatase,簡稱Iap)基因編碼序列時,意外發(fā)現(xiàn)iap基因的3’端側翼區(qū)(Flanking region)存在一個稱作間隔串聯(lián)重復(Spaced tandem repeat)的DNA片段,它包括五個包含29個保守堿基的重復片段,這些重復片段之間由32個堿基的居間序列(Intervening sequence,簡稱IVS)隔開。由于受技術和認識限制,很長一段時間內,基因組研究的重點集中于可以轉錄的區(qū)域(轉錄組),轉錄組研究的重點又集中于編碼蛋白質的序列,導致基因組中重復序列(Repeat)被忽視。因此,后來才知道這個重復序列不僅表達,而且有如此重要的功能。
根據(jù)南開大學卜文俊和高山等利用最新的PacBio流程在國際上首次對昆蟲進行全長轉錄組測序[16]的結果發(fā)現(xiàn),基因組中很多過去認為的不轉錄的重復序列、控制序列、假基因以及各種垃圾序列(Junk DNA)都是轉錄的,基因組可轉錄區(qū)域由于受二代測序技術限制被低估了[17]。江西師范大學張帆濤、南開大學陳德富和高山在研究水稻(日本晴)轉錄組時發(fā)現(xiàn)了一些新的可變剪接模式,以及大量雙向的反義轉錄本(Antisense transcripts)被誤判為一個方向轉錄。南開大學劉林和高山等通過單細胞測序技術發(fā)現(xiàn),大部分過去認為不表達或無功能的假基因在干細胞或腫瘤細胞中高度表達,并且很可能是有功能的。卜文俊和高山等的研究證實了通過PacBio全長轉錄組測序可以獲得完整的成熟體、轉錄前體和部分原始轉錄本,有助于了解RNA從初始轉錄、加工到成熟以及編輯等方面的機制,也是認識一些非編碼RNA(Non-coding RNAs)功能的強有力手段[18]。更多PacBio全長轉錄組測序方面的內容,參見南開大學高山等編著的《PacBio單分子測序指南》。
第一點,該研究的專業(yè)歸屬問題。該研究只用到了非常基本的分子生物學實驗方法,其核心工作就是從已有數(shù)據(jù)庫中尋找線索,而后對系統(tǒng)進行優(yōu)化,這些屬于生物信息學的研究內容。第二點,生命科學的研究內容包括了一些分子層面的基本作用元素,簡單說就是酶的切割連接、合成降解、堿基互補、核酸與蛋白質以及蛋白質與蛋白質幾個層面的相互作用。在不同物種和系統(tǒng)中,一些規(guī)律相同或非常相似,通過信息整合再進行實驗測試,不僅大大提高效率,而且能夠發(fā)現(xiàn)一些更高層次的共性或產(chǎn)生更深入的理解。第三點,生物信息學未來研究方向,必須從大數(shù)據(jù),特別是高通量數(shù)據(jù)出發(fā)。NgAgo-gDNA系統(tǒng)的成功對生物信息學研究者的最大啟發(fā)就是當前積累的生物數(shù)據(jù)沒有充分利用,有巨大潛力可以挖掘。
當前,也有一些“專家”對NgAgo-gDNA系統(tǒng)的原創(chuàng)性提出質疑,其中一個重量級的證據(jù)就是馴鹿生物科學公司(Caribou Biosciences)的專利(WO 2014/189628 A1),它保護了一種DNA指導的AGO酶系統(tǒng),并且專利保護擴展到了具有一定同一性(identity)的蛋白質序列。點評:專利只是停留在紙上(很多專利是擴展保護,其實并沒有相應技術),開發(fā)一個可以實用的基因組編輯系統(tǒng)的原創(chuàng)性不容置疑,現(xiàn)在如果能找到工作在更低溫度的AGO酶(植物轉基因所需)依然是原創(chuàng)性工作。況且,基因組方面的專利保護,涉及到基因或蛋白序列,基本上毫無可操作性。第一,基因組學研究的對象是自然界存在的天然物質(注意與計算機軟硬件的人工產(chǎn)物不同),測序序列雖然是勞動產(chǎn)物,但是其包含的信息難以納入私人產(chǎn)權,況且這些結果包括了大量前人公開的成果或數(shù)據(jù)(例如引物可能來自NCBI數(shù)據(jù)庫)。曾經(jīng)多次有人試圖將人類基因組測序結果納入專利保護,最終還是失敗了。第二,即使可以將某些增量信息(例如新發(fā)現(xiàn)一條突變序列)納入專利保護,也沒有一個標準可以參考。舉個簡單例子,某人測了一條AGO蛋白,并且首次發(fā)現(xiàn)它有某個功能A,可以用于基因組編輯,但不能把AGO蛋白注冊為他的。自然界相似的蛋白質序列數(shù)量驚人,即使能夠注冊了這條蛋白質序列,當然可以允許它設定一個同一性閾值擴展保護,那么這個閾值如何設,沒有標準可以參考,設90%可否?對于一個非常保守的蛋白質,90%的同一性,可能從脊椎動物跨越到無脊椎動物。再舉一個例子,某人發(fā)現(xiàn)一個蛋白,本身可能是無法實際應用的(例如要求65 ℃才能工作),另外一個人做幾個點突變就可以實際應用(例如可以在常溫下工作),同一性可能保持99%,如果第一個人的專利獲批了,就阻止了后人的技術開發(fā)。NgAgo酶的序列來自NCBI,其工作條件37 ℃等天然屬性是韓春雨等發(fā)現(xiàn)的,專利保護可以覆蓋以37 ℃為中心一定范圍內工作的AGO酶么?或保護全部與gDNA一起工作的AGO酶么?唯一能保護的就是實驗或臨床工作時的流程或相關技術(比如大規(guī)模細胞的遞送技術)。專利保護的邏輯悖論就是,不注冊專利沒人知道,仿造不出來;去注冊專利會導致技術泄密。在科研成果保護方面,中國不要跟隨西方體制,盲目崇拜專利。對于大的壟斷公司,核心技術往往首選技術保密,其次才去申請專利,沒什么實用價值的再去發(fā)論文,論文發(fā)出來,大家都學會了方法,也就沒法保護了。專利保護更適合大家都看得見的外觀設計等非核心技術方面。另外,歐美大公司為了實現(xiàn)技術壟斷,圍繞一個技術寫很多關系不大的東西,把有可能想到的實際做不出來的都保護上,目的就是阻止落后國家開發(fā)新技術。況且,專利注冊消耗的精力太大,CRISPR-Cas9的發(fā)明者消耗了大量精力搶奪CRISPR-Cas9專利,才給了其他人發(fā)明新基因組編輯系統(tǒng)的機會。因此,本文作者建議對于我國重要的達到國際一流的技術采取專項經(jīng)費支持,走技術保密路線,既不發(fā)表英文論文也不申請專利,避免與發(fā)達國家產(chǎn)生技術糾紛。
致謝:感謝科學網(wǎng)各位老師對這項工作的評論與傳播,主要有孫學軍、許培揚、丁廣進、侯成亞、杜立智、戴德昌、王毅翔、張憶文、劉立、牛登科、陸綺、徐曉、姬揚、曾泳春、李春杰、田云川、呂洪波、王濤、姚伯元、任文龍、張鈁、馬志超、趙保明、史曉雷、王偉、石磊、羅教明、袁海濤、秦逸人、羅湘南、孟凡、張洋、沈律、陳方銳、黃彬彬、張超、劉建彬、黃秀清、王林平、李紅雨和邵鵬等。
References)
[1]GAO F, SHEN X, JIANG F, et al. DNA-guided genome editing using the Natronobacterium gregoryi Argonaute[J].Nature Biotechnology, 2016, advance online publication. DOI: 10.1038/nbt.3547.
[2]高山, 歐劍虹,肖凱.R語言與Bioconductor生物信息學應用[M]. 天津: 天津科技翻譯出版公司,2014.
GAO Shan, OU Jianhong, XIAO Kai. Using R and bioconductor in bioinformatics (in Chinese) [M]. Tianjin: Tianjin Science and Technology Translation Publishing Co., 2014.
[3]GAO S, ZHANG N, DUAN G, et al. Prediction of function changes associated with single-point protein mutations using support vector machines (SVMs)[J]. Human Mutation, 2009,30(8): 1161-1166.
[4]GAO S ,FANG J.Predicting kinase-specific phosphorylation sites using a multitask classification framework[J]. in 2011 IEEE International Conference on Bioinformatics and Biomedicine, BIBM 2011, November 12, 2011. Atlanta, GA, United states: IEEE Computer Society. DOI:10.1109/BIBM.2011.57.
[5]GAO S,XU S,FANG Y,et al.Using multitask classification methods to investigate the kinase-specific phosphorylation sites[J]. Proteome Science, 2012, 10(Suppl 1): S7.
[6]ZHANG N, LI B, GAO S, et al. Computational prediction and analysis of protein γ-carboxylation sites based on a random forest method[J]. Molecular Biosystems, 2012,8(11):2946-2955.
[7]FANG Y, GAO S, TAI D, et al. Identification of properties important to protein aggregation using feature selection[J]. Bmc Bioinformatics, 2013(14): 314.
[8]ZHANG N, GAO S, CHEN L, et al. Using multitask learning methods to investigate signal peptides and signal anchors[J]. Current Bioinformatics, 2013,8(5): 533-538.
[9]Kreuze J F, PEREZ A, UNTIVEROS M, et al. Complete viral genome sequence and discovery of novel viruses by deep sequencing of small RNAs: a generic method for diagnosis, discovery and sequencing of viruses [J].Virology, 2009, 388(1): 1-7.
[10]LI R, GAO S, HERNANDEZ A G, et al. Deep sequencing of small RNAs in tomato for virus and viroid identification and strain differentiation [J]. PLoS ONE, 2012, 7(5): e37127.
[11]LI R, GAO S, FEI Z, et al. Complete genome sequence of a new tobamovirus naturally infecting tomatoes in mexico[J]. Genome Announcements, 2013,1(5): e00794-13.
[12]PADMANABHAN C, GAO S, LI R, et al. Complete genome sequence of an emerging genotype of tobacco streak virus in the United States [J]. Genome Announcements, 2014,2(6): e01138-14.
[13]LI R, GAO S, BERENDSEN S, et al. Complete genome sequence of a novel genotype of squash mosaic virus[J]. Genome Announcements, 2015,3(1): e01583-14.
[14]GAO S, LI R, LING K, et al. A novel method to detect Virome based on small RNA deep sequencing technologies[J]. in BIT’s 3rd Annual World Congress of Microbes , WCM 2013, July 30, 2013. Wuhan, HuBei, China: WCM 2013. DOI:10.1016/j.jcv.2014.06.013.
[15]WANG Fang, SUN Yu, RUAN Jishou, et al. Using small RNA deep sequencing to detect human viruses[J]. BioMed Research International, 2016,2016(2016): 9. http://dx.Doi.org/10.1155/2016/2596782.
[16]任毅鵬, 張佳慶, 孫瑜, 等. 基于PacBio平臺的全長轉錄組測序[J]. 科學通報, 2016,61(11): 1250-1254.
REN Yipeng, ZHANG Jiaqing, SUN Yu, et al. The study of full-length transcriptome sequencing on PacBio platform (in Chinese)[J]. Chinese Science Bulletin, 2016, 61(11): 1250-1254.
[17]劉圣, 馮祖仁, 高山, 下一代測序數(shù)據(jù)的質量控制研究[J]. 軍事醫(yī)學, 2014(005): 377-380.
LIU Sheng, FENG Zuren, GAO Shan, et al. Study on quality control of the next-generation sequencing data[J]. Military Medicine, 2014(005): 377-380.
[18]GAO S, REN Y, SUN Y, et al. PacBio Full-length transcriptome profiling of insect mitochondrial gene expression[J]. RNA Biology, 2016, 13(6): 635. DOI: 10.1080/15476286.2016.1197481.
NgAgo-gDNA will stimulate the development of genome editing systems
SUN Yu1,CAI Xiaoning2,CHEN Defu1,GAO Shan1*
(1.CollegeofLifeSciences,NankaiUniversity,Tianjin300071,China;2.NanjingXiaozhuangUniversity,Nanjing211171,China)
A new genome editing system named NgAgo-gDNA was invented using 5’ phosphorylated single-stranded guide DNA (gDNA) of 24 nucleotides and Natronobacterium gregoryi Argonaute (NgAgo). This system outperformed the RNA-guided genome editing system CRISPR-Cas9 on several features. The success of the NgAgo-gDNA project demonstrated the importance of bioinformatics in biological research and will stimulate the development of genome editing systems. The NgAgo-gDNA project was initiated from searching homologs of TtAgo and PfAgo, two other enzymes from the AGO protein family. The authors used the software PSI-BLAST against the NCBI NR database to retrieve homologous protein sequences. After further analysis and filtering, they found the NgAgo protein (GenBank: AFZ73749.1), which works at the temperature of 37 ℃. The key step in the NgAgo-gDNA project is to narrow down a great number of AGO homologous protein sequences to several candidates using bioinformatics methods for experimental validation of their functions. These bioinformatics methods were not explained in the published paper but could belong to the empirical methodology. An alternative but advanced methodology is to use machine learning algorithms (e.g. support vector machine or random forest) to modify AGO proteins which work at a temperature close to 37 ℃. The future studies can be conducted in several fields using bioinformatics methods. First, the structural information of the NgAgo protein can be used to reveal the mechanism of the DNA and protein interaction. The sequence with structure comparison between NgAgo and TtAgo & PfAgo or other AGO proteins will help understand their molecular functions. Second, using the sequence or structure similarities, more RNA-or DNA-binding proteins can be retrieved from the public databases to help design new genome editing systems. Third, since RNAi (RNA interference) uses AGO to cleave double stranded RNAs, the guide-target complexes of AGO proteins need be studied to reveal the common mechanisms and differences between genome editing and RNAi. Fourth, a great number of AGO genes from lower to higher organisms can be used to study the evolution of AGO and the coevolution between the viruses and the hosts.
Genome editing; NgAgo; CRISPR; Cas9; RNAi;Full-length transcriptome; PacBio
2016-06-03;
2016-06-23.
中央高校基本科研業(yè)務費(南開大學)
孫瑜,男,碩士研究生,研究方向:生物信息學;E-mail:sun_yu@mail.nankai.edu.cn.
*通信作者:高山,男,副教授、碩導,研究方向:生物信息學;E-mail:gao_shan@mail.nankai.edu.cn.
10.3969/j.issn.1672-5565.2016.03.07
Q786
A
1672-5565(2016)03-167-06