闞東揚
(昭通學院農學與生命科學學院 云南 昭通 657000)
眾所周知,遺傳信息是通過信使RNA(mRNA),經過精細調節的過程從DNA傳遞到蛋白質的。由中心法則我們可以知道RNA是作為一個“橋”連接著遺傳信息由DNA傳遞到蛋白質中,而每個基因以及其相應的表達量水平被稱為轉錄組[1]。從廣義上來說轉錄組包括mRNA,rRNA,tRNA,以及非編碼RNA。狹義上來說它僅指所一個樣本中收集到的所有mRNA[2],因此轉錄組測序也被稱為RNA-seq。
隨著對基因組研究的深入,研究者對能夠進行各種轉錄基因分析的工具的需求,更加迫切。特別是能夠進行差異基因鑒別和表達量分析的工具。因此隨著新一代測序技術的成熟,RNA-seq被廣泛應用于各種RNA功能研究中,通過不同的分離試劑可以在制備cDNA文庫前得到所需要的各種類型RNA(mRNA,rRNA,tRNA,小分子RNA)。
目前RNA-seq已經作為一種主流的研究轉錄組的測序技術,其相比較于其他幾種技術具有顯著的優勢。
通過建立泊松分布模型捕獲差異表達基因,發現相較于其他幾種測序技術(分子雜交,生物芯片,堿基測序,這些方法基本都基于桑格爾測序法),有0.5%的基因可以觀察到明顯的差異,背離分布。并且通過這個模型,比基因組芯片鑒定出的基因更多,高達30%[3](Marioni et al.,2008)(Marioni,J.C,2008)。特別是對具有親緣關系的相近物種進行檢測基因表達量分析和差異基因鑒別時,相比其他方法具有高度靈敏性和更高的信息深度[4]。而這些基于堿基雜交的方法其固有的缺陷:1花費昂貴,2 high-resolution tiling arrays(高分辨率芯片)需要查詢大量的基因組,此外這些方法還有其他限制:1需要大量已知的片段序列,2高背景水平(由于交叉雜交的特點),3有限的檢測范圍(由于信號的濃度和溶解度)并且對表達水平的檢測,一個實驗往往很難辦到,而且常常是普通實驗復雜化[5]。RNA-seq的三個優勢:1:無需現有基因的支持,可以測序非模式種,2與DNA芯片相比低背景,高敏感性,樣品只需少量,無序列數量上限,精度高[6]。
RNA-seq相比芯片技術在測序范圍內高出了五個數量級,高豐度情況下,RNA-seq相比芯片能檢測出大約40%的差異基因表達的。事實上,RNA-seq相比芯片技術的最大優勢是在外顯子邊界范圍的預測[7]。采用RNA-seq可以較為準確的測量基因表達水平[8]轉錄子的表達水平是與它的讀段是成比例的,相應的讀段數目乘以轉錄子的長度,即可作為一個直觀的量化表達量的水平的依據[9]。RNA-seq的另一個巨大優勢體現在時效性和廉價性上,特別是在大規模測序應用中,可以以低廉的花費在較短的時間內獲得樣品基因組的數據。

表1 RNA-seq的特點
RNA-seq是以 Illumina 公司的 Solexa 技術為代表的新一代測序技術,又稱作深度測序技術。由于其具有的測序通量高、測序時間和成本顯著下降特點,使其被廣泛應用于各種RNA片段測序研究中,因此被稱為RNA-seq 或 RNA 測序。
以Illumina公司的Solexa技術為例,其測序原理為:邊合成邊測序[10],其測序過程是在獲得的RNA單鏈反轉錄為DNA 單鏈后,以單鏈cDNA為模板,在生成互補鏈時,利用帶熒光標記的 dNTP 發出不同顏色的熒光來確定不同的堿基.新加入 dNTP 的末端被可逆的保護基團封閉,既保證單次反應只能加入一個堿基,又能在該堿基讀取完畢后,將保護基團除去,繼續下一個反應。
RNA-seq主要包含兩個流程:1 cDNA文庫的構建,2 測序得到的讀段(read)處理。以Illumina技術為例,典型的構建mRNA文庫主要分為(1)抽提總RNA并片段化,(2)使用共軛磁珠(oligo-dT)從總RNA中捕獲polyA+,獲得mRNA(RNA片段相對于DNA片段的優勢在于減少RNA二級結構[11]庫,(3)反轉錄mRNA獲得cDNA片段,(4)為cDNA裝配測序接頭,(5)清理文庫并擴增文庫片段。如圖1所示:

圖1 cDNA文庫構建流程
完成cDNA文庫的構建后,即可上機測序,獲得讀段(reads),將獲得的讀段進行比較,基于讀段之間的重疊區域進行拼接,構建重疊群。對這些拼接后獲得的序列(contigs)進行相鄰序列界定(往往還需要構建454 Paired-end庫或Illumina Mate-pair庫,以獲得一定大小片段(如3Kb、6Kb、10Kb、20Kb)兩端的序列。基于這些序列,可以確定這些Contigs之間的順序關系),進一步拼接。這些確定前后順序的contigs拼接后的片段稱為Scaffold。隨后就可以將獲得的Scaffold拼接并構建樣品基因組。如圖2所示:

圖2 讀段后續處理
幾乎所有的RNA-seq研究都可以分為三類:1.差異基因表達研究,比較在不同條件下,每個基因的差異表達。2.差異轉錄本/外顯子使用研究,比較在不同條件下基因同工型豐度譜的組成。3.差異轉錄表達研究,重點在研究單個轉錄本是否顯示不同條件之間的差異表達[12]。
整個轉錄組分析的主要目標是鑒定,表征和分類在特定細胞/組織(特定階段)表達的所有轉錄本,它具有確定正確剪接模式和基因結構的潛力,并量化兩種轉錄本的差異表達 生理和病理狀況。同樣的,具有同工型編碼不同蛋白的基因可能是作用于不同細胞或者生命活動周期,而檢測不同的promoter和拼接位點可以探明轉錄組的調節行為和規律[13],了解這些差異對于我們理解或者解決生物的多種重大疾病有極大的幫助。
(1)RNA-seq得到的數十億對堿基數據對于高效構建轉錄圖譜是一個巨大的挑戰。大量“未充分利用”的信息的滯存,由于新信息的產生,使得這些滯存的信息在幾個月內變得無用[14]而由于轉錄子結構的不連續性,對于精準拼接龐大的RNA-seq數據庫是很困難的[15],但現有的算法有其固有的缺陷對于拼接或者表達水平有誤差(如:RPKM(一種RNA-seq的讀段測量方法)——所固有的問題:掩蓋了總mRNA含量的差異。如果總mRNA含量也發生變化,則一個基因的RPKM可能會“上調”,并且絕對表達水平會降低[16]因此對新的計算策略和專業知識進行同等開發就迫在眉睫,以處理當前一代新測序儀器創建的數據量,最大程度地發揮其潛在效益。(2)數據管理:沒有適當的信息技術(IT)基礎架構,下游計算分析將變得困難;每次測序運行產生的數兆字節的數據需要顯著的存儲和備份容量,大大增加了,這也迫切需要專業的生物信息技術學者開發新的算法;(3)關于原始數據生成所使用的協議:每個平臺在樣品制備以及原始數據的類型和數量上都有其獨特性,因此使用它們時,每個均需要相應的實驗室專業知識和數據處理管道,這很大程度上阻礙了研究人員的實驗進度。(4)無論使用哪種軟件,最重要的問題是了解其局限性和假設。測序采用輸入/輸出數據標準對于有效處理數據管理問題也至關重要。(5)仔細的實驗設計的未得到充分考慮。
近年來對于單細胞RNA-seq的應用不斷深入,將RNA-seq應用于單細胞轉錄組中,以研究細胞在不同分化階段上的轉錄組差異,構建細胞的時間軸上的分化差異,從而構建細胞的分化時間軸,進而挖掘重要的功能基因[18]。這對于研究生物系統發育極具吸引力,新的研究成果不斷涌現,未來RNA-seq也將更進一步的應用于非模式種的單細胞轉錄組測序中。