譚玉榮 王丹 高璇 劉進平
(海南省熱帶生物資源可持續利用重點實驗室 海南大學熱帶農林學院,海口 570228)
非編碼RNA(Noncoding RNA,ncRNA)指含有1個少于100個氨基酸開放閱讀框(Open reading frame,ORF)的RNA[1]。轉錄本(主要是非編碼)估計覆蓋人類基因組的62%-75%[2],占到具有潛在功能序列的 80%[3]。
一些ncRNA為所有細胞中組成型表達的管家ncRNA(Housekeeping ncRNA),如轉運 RNA(Transfer RNA,tRNA)、 核 糖 體 RNA(Ribosomal,rRNA)、小核 RNA(Small nuclear RNA,snRNA)、小核仁RNA(Small nucleolar RNA,snoRNA)等。除管家ncRNA之外的其他ncRNA大體上可分為小ncRNA(Small ncRNA)和長鏈ncRNA(Long noncoding RNA,lncRNA)。前者的序列長度短于100核苷酸,而后者指大于200個核苷酸長度的ncRNA[1]。小ncRNA包括微RNA(microRNA,miRNA)、內源小干擾RNA(Endogenous small interfering RNA,endosiRNA)和PIWI-相關(或互作)小RNA(PIWI-associated small RNA或 PIWI-interacting RNA,piRNA)等[4-6]。關于lncRNA研究,國外有少量綜述發表,主要針對lncRNA機制進行論述[7-11]。本文對植物lncRNA的分類、鑒定和研究、分子作用機制及其功能進行全面綜述,并詳細論述其在植物中的功能,旨在為給研究者提供參考。
lncRNAs可以按照多種方法進行分類,如按照轉錄本長度、與已注釋編碼蛋白質基因相關性、與其他已知功能DNA因子的相關性、基于與編碼蛋白質的RNA的相似性、與重復序列相關性、與生化途徑或穩定性相關性、基于序列或結構的保守性、基于在不同生物學狀態的表達、基于與亞細胞結構的相關性、基于功能等分為多種類型[12]。Ulitsky[13]從進化保守性角度將lncRNAs分為3類:第一類為保守lncRNAs(其外顯子-內含子結構和多個序列在物種間是保守);第二類lncRNAs則在轉錄行為和某些RNA成分(傾向于RNA的5′端)是保守的,但絕大多數位點在外顯子-內含子結構和長度經歷急劇變化;第三類lncRNAs則在啟動子序列和特定區域的轉錄行為保守外,其他區域沒有可識別的序列相似性和基因結構的保守性。由于lncRNAs具有較低的序列同源性,是非保守的,難以用傳統的搜索算法如BLAST找到序列同源性RNA,但其二級結構具有一定的保守性。因此,Sanbonmatsu[14]探討了使用二級結構對lncRNAs進行結構分類的可能性。
本文主要根據lncRNAs相對于鄰近蛋白質編碼基因的位置進行粗略分類。其中長鏈非編碼自然反義轉錄本(Long noncoding natural antisense transcripts,lincNATs)從鄰近蛋白質編碼基因的內部或3′起始,向其反方向轉錄,至少與其中一個外顯子相重疊。而內含子lncRNAs(Intronic lncRNAs)從鄰近蛋白質編碼基因的內含子起始向任意方向轉錄,但并不與外顯子相重疊就轉錄終止。啟動子lncRNAs(Promoter lncRNAs)為鄰近蛋白質編碼基因的啟動子區轉錄本。長鏈基因間ncRNAs(Long intergenic ncRNAs,lincRNAs)為蛋白質編碼基因之間的獨立轉錄單位,與蛋白質編碼基因至少間隔1 kb[8]。
需要說明的是,lncRNAs種類其實依賴于使用的檢測方法。最近在模式植物擬南芥和水稻的檢測到沒有多聚腺苷酸化的ncRNA,長度在50-300 nt,具有較低的蛋白編碼潛能,與已知的RNA序列沒有任何的相似性[15-16]。因此,可根據是否含有3′多聚腺苷酸[poly(A)]尾巴而將植物中的lncRNAs而分為多聚腺苷酸化lncRNAs(Polyadenylated lncRNAs)和非多聚腺苷酸lncRNAs(Nonpolyadenylated lncRNAs)兩種[8]。
鑒定和發現lncRNAs的傳統方法有cDNA文庫(cDNA library)法和平鋪陣列(Tiling arrays)法,但隨著下一代測序(Next generation sequencing,NGS)技術的到來,上述方法由于沒有成本和技術優勢而被淘汰[17]。目前鑒定和發現lncRNAs常用的方法有基因表達的高通量測序系列分析(High throughput sequencing serial analysis of gene expression,SAGE)、RNA 測 序(RNA sequencing,RNA-seq)、基因表達的帽子分析(Cap analysis of gene expression,CAGE)、低豐度轉錄本檢測/單細胞測序(Detection of low-abundance transcripts/single-cell sequencing)、RNA末端平行分析/未加帽轉錄本全基因組作圖/降解組測序(Parallel analysis of RNA-ends(PARE)/Genome-wide mapping of uncapped transcripts(GMUCT)/degradome-seq)、轉錄本亞型測序(Transcript isoform sequencing,TIF-seq)、全基因組連續測序(Global run-on sequencing,Gro-seq)、5′-溴尿嘧啶免疫共沉淀捕獲-深度測序分析(5′-bromouridine immunoprecipitation chase-deep sequencing analysis,bric-seq)等[17-18]。由于 RNA 測序法使用最為普遍也最為基礎,對該法大致程序簡述如下:在對某一物種的某一組織或樣本RNA測序后,如果該物種已經對基因組測序,就將所得reads映射到基因組中,然后裝配成轉錄本。這種方法為基因組指導裝配(Genome-guided assembly),一般采用軟件Cufflinks;如果該物種尚未對基因組測序,就采用從頭裝配(de novoassembly)法,如采用軟件Trinity先裝配成轉錄本,然后再映射到基因組。之后將所有樣本的轉錄本進行合并,經多重過濾步驟移去低保真轉錄本和蛋白質編碼基因,然后剩余的轉錄本就可進行分類分析[17-18]。
典型的lncRNA與mRNA的生化結構是相同的,都有一個5′帽子和3′ poly(A)尾巴,因而容易使用標準RNA-seq方法進行測序[19]。以寡(dT)為基礎的富測序方法雖然可鑒定到大部分具有功能的lncRNAs,但是,由于非多聚腺苷酸化的ncRNA的發現,目前只需去除rRNA,包括非多聚腺苷酸化的轉錄本在內的“總RNA”進行測序[20]。
鑒定lncRNAs生理功能最常用的方法有超表達(Overexpression)和基因敲低(Knockdown)[21],以此來確定該lncRNA對植物表型、其他基因表達和代謝途徑的影響。此外,進行定位研究的方法有熒光原位雜交(Fluorescence in situ hybridization,FISH);研究RNA和蛋白質互作的方法有RNA免疫共沉淀(RNA immunoprecipitation,RIP)、高通量測序交聯免疫沉淀(High-throughput sequencing cross-linking immunoprecipitation,HITSCLIP)、光活化的核苷酸增強交聯和免疫共沉淀(Photoactivatable ribonucleotide-enhanced cross-linking and immunoprecipitation,PAR-CLIP);研究RNA和DNA互作的方法有RNA純化染色質分離(Chromatin isolation by RNA purification,ChIRP)、RNA反義純化(RNA antisense purification,RAP)和RNA靶標捕獲雜交分析(Capture hybridization analysis of RNA targets,CHART);研究RNA和RNA互作的方法有RNA-RAP、雜交分子的交聯、連接和測序(Crosslinking,ligation and sequencing of hybrids,CLASH);研究lncRNA二級結構的方法有引物延伸選擇性2′羥基酰化反應(Selective 2′ -hydroxyl acylation by primer extension,SHAPE)、片段化測序(Fragmentation sequencing,frag-seq)和RNA結構平行分析(Parallel analysis of RNA structure,PARS)。此外,核糖體分型(Ribosome profiling)能對轉錄本與核糖體直接結合進行可視化,因而可進行翻譯全局分析。這種方法可以檢查某些lncRNAs是否進行翻譯[17-18,22]。顯然,由于實驗方法并不一定是高通量的方法,為了提高研究的速度和精確度,有必要在實驗驗證之前,對lncRNAs的鑒定、結構、保守性、相互作用(與其他RNA、蛋白質或DNA)、共表達和細胞定位進行生物信息學分析。關于lncRNAs研究的生物信息學工具和數據庫可參看相關綜述[18,23-24]。
lncRNAs的分子作用機制主要來自于對人和動物的研究。lncRNAs可作為與其互作分子的招募者、系結者、引導者、誘捕者和信號分子,通過表觀遺傳調控、轉錄調控、轉錄后調控和翻譯調控而發揮其功能[24-25]。
在轉錄調控方面,lncRNAs可以與轉錄因子相結合,從而激活靶基因并穩定轉錄因子與DNA序列的結合,也可以通過改變轉錄因子的定位來影響下游基因的表達,或者結構與DNA類似,具有與DNA結合形成雙鏈的位點,從而誘捕轉錄因子來調節他們的亞細胞定位和基因表達。但一些轉錄因子能通過影響lncRNAs啟動子區反過來調控lncRNAs的轉錄[24-25]。
LncRNAs能夠對mRNA剪接與穩定性發揮作用。例如,反義lncRNAs可與正義RNA結合,隱藏其剪接位點,從而改變剪接變異體之間的平衡[25]。LncRNAs可作為miRNA的前體,也可調控miRNA的功能,通過掩蓋靶mRNA的miRNA結合位點來抑制miRNA的功能,或者lncRNAs上有與miRNA反應元件(miRNA response elements,MREs),因而可作為其競爭性內源RNA(Competing endogenous RNA,ceRNA),直接誘捕miRNA,防止其與靶mRNA結合。但靶miRNA也能調控lncRNAs的表達豐度并降低 lncRNAs的穩定性[24]。LncRNAs作為潛在的內源性靶模擬體(Potential endogenous target mimics,eTMs)在擬南芥和水稻的研究中也有報道[26]。
lncRNA還可能具有與增強子RNAs(Enhancer RNAs,eRNAs)——一種自DNA序列的增強子區域雙向轉錄的新型的ncRNAs——類似的轉錄激活調控功能[24]。
RNA結合蛋白(RNA-binding proteins,RBPs)是指能與細胞內單、雙鏈RNA結合,形成核糖核蛋白(Ribonucleoprotein,RNP)復合體。而大多數的lncRNA的調控活性需要lncRNA-RBP的相互作用。lncRNAs可釋放由RBPs與其他蛋白形成的復合體,也可介導RBPs降解或增加,lncRNA-RBP互作可誘導RBP介導的組蛋白修飾或者通過影響RBPs活性來激活或阻遏啟動子[24-25,27]。此外,lncRNA轉錄后RNA修飾會影響到lncRNA二級結構及其能否裝配入 RNP 復合體[28-29]。
lncRNA還可介導染色質相關蛋白招募,增強或抑制染色質相關蛋白向靶DNA位點加載,從而影響表觀遺傳和基因表達。此外,通過堿基互補配對的RNA-DNA三鏈結構可使lncRNA-DNA直接互作[24]。lncRNA也可影響DNA甲基化(DNA methylation)和染色質重塑復合體(Chromatin remodeling complex)來實現其調控功能[30]。
lncRNAs的生物學功能最早來自于20世紀80年代對果蠅雙胸復合體(Bithorax complex)的遺傳分析[31]和1991年對哺乳動物和果蠅X失活與性染色體劑量補償遺傳機制的研究[32-33]。植物中雖然鑒定出大量 lncRNAs,如擬南芥[34-40]、水稻[41-42]、小麥[43-44]、玉米[45-46]、谷子[47]、棉花[48-49]、蒺藜苜蓿[50]、桃樹[51]、楊樹[52-54]、獼猴桃[55]、白菜[56]、黃瓜[57]、向日葵[58]、江南卷柏(Selaginella moellendorffii)[59]、沙棘(Hippophae rhamnoides)[60]及芒草(Miscanthus lutarioriparius)[61]等,但其確定的生物學功能的報道相對較少。
擬南芥FLOWERING LOCUS C(FLC)為開花阻抑蛋白,而冬季低溫和春化作用可誘導表觀遺傳開關,引發Polycomb Repressive Complex 2(PRC2)在FLC位點富集組蛋白三甲基化,使FLC表達沉默,從而使某些植物經冬季低溫后在春天開花。一個稱為COLD ASSISTED INTRONIC NONCODING RNA(COLDAIR)的lincRNA(1.1 kb)可在春化介導的表觀遺傳控制下招募PRC2到FLC,并沉默FLC表達。COLDAIR從FLC第一內含子轉錄,其表達受低溫誘導,20 d低溫處理后表達水平達到最大值,然后返回基礎水平。RNA免疫沉淀技術表明,在冷處理過程中COLDAIR和PRC2復合體一個組分之間能直接互作。當利用RNA干擾敲低COLDAIR后,即使春化作用后植物仍表現晚開花表型[62]。
此外,由抑制FLC啟動子產生的另外一個稱為COLDWRAP的lncRNA,可與Polycomb結合,也是通過春化作用使FLC處于穩定的阻遏狀態所必需的。COLDAIR和COLDWRAP都是春化作用在FLC位點形成阻遏作用的基因內染色質環所必需[63]。
COOLAIR是FLC基因反義鏈轉錄產生的lncRNAs,也受長時間的低溫誘導產生[64-65]。低溫誘導時COOLAIR在Polycomb沉默的特征性組蛋白 3賴氨酸 27的三甲基化(H3K27me3)大量積累之前產生,而冷處理過程中去除COOLAIR則會破壞基因間FLC成核位置H3K27me3對H3K36甲基化的同步化取代。COOLAIR與FLC位點直接結合并能在冷處理中促進FLC關閉轉錄[64]。COLDAIR和COOLAIR都能與PRC2直接互作,以調節春化介導的在FLC位點的表觀遺傳阻遏和FLC表達抑制[62,64]。
在豆科模式植物蒺藜苜蓿(Medicago truncatula)中,ENOD40是一種具有蛋白編碼潛力的高度結構化lncRNA[66-67]。雖然它能編碼12個氨基酸長度的短肽,但其結構化RNA區才為其生物學功能即固氮豆科植物根瘤的形成所必需[68]。轉基因苜蓿植株中ENOD40過量表達或沉默分別表現出加速結瘤或只形成少數結節樣結構[69-70]。
組成型表達的RNA結合蛋白MtRBP1定位在核斑(Nuclear speckle)(貯藏剪接體復合體并在mRNA加工中發揮作用,還可為mRNA一起運動的組分通過核孔到達細胞質提供中轉站和調控檢查點),利用酵母三雜交系統發現它能與ENOD40RNA的互作[71]。而ENOD40RNA為結瘤過程中MtRBP1從核斑向細胞質顆粒的再定位所需。
一種稱為長日特異性雄性不育相關RNA(Longday-specific male-fertility-associated RNA,LDMAR)的lncRNA調控花粉發育和光敏感雄性不育(Photoperiod-sensitive male sterility,PSMS)。足量的LDMAR轉錄本為正常花粉發育所必需。野生型的一個SNP自發突變可引起LDMAR二級結構改變,從而提高LDMAR上游DNA甲基化,特別在長日條件下會減少LDMAR啟動子的活性,使正在發育的花藥過早細胞程序性死亡,從而引起光敏感雄性不育[72]。進一步的研究表明,LDMAR基因啟動子區轉錄產生的一個siRNA(Psi LDMAR),它可誘導LDMAR基因啟動子區RNA指導的DNA甲基化,從而阻遏LDMAR的表達[73]。
光信號是調節植物發育的重要環境信號之一。Phytochrome Interacting Factor 3(PIF) 基 因 編 碼的bHLH轉錄因子,抑制光形態建成。而HIDDEN TREASURE 1(HID1)對PIF起負調控作用。有一個包含潛在開放讀碼框(Open reading frame,ORF)并編碼44個氨基酸肽的lincRNAs(236 nt)可挽救hid1的T-DNA突變體。而破壞這個潛在的開放閱讀框,但保留RNA結構的突變體HID1能挽救hid1表型植物。計算模擬預測表明HID1能形成4個莖環結構,而這對HID1能挽救hid1表型是必不可少。實驗表明,HID1作為lincRNA通過與對PIF3直接轉錄調控來控制光形態建成[74]。
Pi吸收的一個突變體phosphate2(pho2)是由于Ubiquitin-Conjugating Enzyme 24(UBC24)突變所致,由于它使Pi吸收增加而在莖芽中累積過量的Pi。而Pi饑餓能誘導miR399累積并降低PHO2/UBC24的表達,而miR399過量表達則阻抑PHO2/UBC24轉錄本的累積并增加Pi吸收,這顯示miR399通過調控PHO2/UBC24表達而控制Pi的動態平衡[75]。但是一個稱為INDUCED BY PHOSPHATE STARVATION 1(IPS1)的的lincRNA(542 nt)與miR399有一個23-nt長的互補基序。IPS1過量表達能使野生型植株中PHO2mRNA累積,但卻在miR399過量表達系植株中使PHO2mRNA和Pi累積減弱,這顯示IPS1與miR399具有拮抗作用[76]。進一步研究表明,IPS1通過靶標模仿(Target mimicry)機制而和miR399直接結合,并使miR399與PHO2mRNA隔絕。
水稻中PHOSPHATE1;2(PHO1;2)編碼負責將磷酸裝載到木質部的蛋白。PHO1;2互補鏈編碼一個相關cis-lncNAT。兩者都受維管組織中有活性的啟動子控制,但磷饑餓只有cis-lncNAT啟動子得到誘導。磷脅迫條件下,PHO1;2蛋白和cislncNAT累積增加,但PHO1;2mRNA水平保持穩定。通過RNA干涉下調cis-lncNAT表達會導致PHO1;2蛋白水平降低,破壞磷由根向莖中運輸,并使種子減產,而cis-lncNAT組成型過表達則會使PHO1;2強勁增加,即便在磷缺乏的條件下也如此。cislncNAT表達會與正義-反義對向多核糖體運輸有關,這表明cis-lncNAT對PHO1;2的翻譯具有促進作用并影響磷的動態平衡[77]。
兩個擬南芥核斑RNA結合蛋白(Arabidopsisnuclear speckle RNA-binding proteins,AtNSRs)NSRa和NSRb為選擇性和/或組成性剪接所必需[78]。一個稱為選擇性剪接競爭者長鏈非編碼RNA(Alternative Splicing Competitor long noncoding RNA,ASCO-lncRNA,原稱為Npc351)的lncRNA可與AtNSRs的前體mRNAs競爭性地與AtNSR相結合,而在ASCO-lncRNA過量表達系中特定選擇性剪接的亞型累積。生長素處理可誘導NSRb并使野生型實生苗側根形成增加,但NSRa和NSRb的雙突變體產生很少的側根,而且即使生長素處理后也不能誘導側根形成。因此,ASCO-lncRNA在接收生長素信號后通過與AtNSRs結合調控發育過程中的選擇性剪接[79]。
此外,在生長素運輸和發育信號輸出方面,lncRNA也發揮調控作用。生長素極性運輸關鍵調控基因PID的上游可由RNA Pols II和V轉錄產生一個5 kb的稱為生長素調控的啟動子環(Auxin-regulated promoter loop,APOLO)的lncRNA。APOLO雙重轉錄能調控染色質環的形成,將鄰近基因PID啟動子包圍起來。外源生長素處理后,會在APOLO位點產生活躍的DNA去甲基化作用,并迅速打開染色質環,露出基因間隔區,便于轉錄因子與之結合。改變APOLO表達會影響染色質環的形成,而RNA依賴的DNA甲基化、活性DNA去甲基化和Polycomb復合體控制染色質環的動態變化。這種動態染色質拓撲結構決定了PID表達模式[80]。
對兩個不同的棉花品種分析表明,lncRNAs在對大麗輪枝菌(Verticillium dahliae)引起的棉花黃萎病防御反應中發揮作用。其中兩個核心lncRNAs,GhlncNAT-ANX2和GhlncNAT-RLP7沉默的棉花實生苗對大麗輪枝菌和灰葡萄孢菌或貴腐霉菌(Botrytis cinerea)的抗性增加,這可能是通過提高Lipoxygenase 1(LOX1)和lipoxygenase 2(LOX2)的表達實現的[81]。
Cui等[82]對晚疫病菌或致病疫霉(Phytophthora infestans)抗性和敏感的番茄之間進行比較轉錄學分析,鑒定出1 037個差異表達基因(Differentially expressed genes,DEGs)和688個差異表達lncRNAs(Differentially expressed lncRNAs,DELs), 并 進 行了包括128個DEGs和127個DELs共定位網絡(colocalization networks)分析,其中lncRNA16397能作為基因SlGRX22反義轉錄本并調控slgrx22表達。過表達分析表明,番茄lncRNA16397誘導SlGRX22表達,減少活性氧累積,減輕細胞膜損傷,從而增強對晚疫病菌的抗病性。
Zhu等[83]鑒定出20個擬南芥對尖孢鐮刀菌(Fusarium oxysporum)侵染響應的轉錄活躍區(Transcriptionally active regions,TARs),其中 10個長鏈非編碼 TARs(long noncoding TARs,lncTARs)經T-DNA插入或RNA干擾敲低被證明與尖孢鐮刀菌病抗性有關。啟動子分析表明一些尖孢鐮刀菌響應的lncTARs是轉錄因子響應于病原體的攻擊的直接靶標。
Qin等[84]鑒定到一個擬南芥干旱和鹽脅迫響應的正向調節lncRNA,稱為干旱誘導的長鏈非編碼 RNA(Drought induced lncRNA,DRIR)。DRIR在無脅迫條件下低水平表達,但干旱和鹽脅迫以及脫落酸(ABA)處理后表達水平顯著上升。在擬南芥中過量表達DRIR也可增加轉基因植株對干旱和鹽脅迫的耐性。過量表達DRIR植株轉錄組分析表明,包括ABA信號傳導、水分運輸和其他緩解脅迫過程的大量基因表達得到改變。DRIR可能通過調節一系列參與應激反應的基因表達來調控植物對非生物脅迫的反應。
一些lncRNAs或mRNAs可以與天然反義轉錄本形成雙鏈RNA,并產生siRNAs執行其非編碼的功能。天然反義轉錄本(Natural antisense transcripts,NATs)為其他轉錄本(正義轉錄本)序列互補的編碼或非編碼RNA。這些RNA可能在轉錄或轉錄后水平上調節與它們互補的正義轉錄本的表達[85]。NAT產生的siRNAs稱為NAT-siRNA[86]。在擬南芥中,一個熱激轉錄因子HSFB2a的表達可由一個稱為asHSFB2a的lncNAT的作用所抵消,這會影響到植物的營養體和配子體發育[87]。矮牽牛SHO基因編碼一種細胞分裂素合成相關的酶,而一個SHOcis-lncNAT轉錄可以組織特異性的方式降解SHOdsRNA,從而控制局部細胞分裂素的合成[88]。此外,NAT 產生的 siRNA 在鹽脅迫[86]、雙受精[89]、細胞壁合成[90]和小種特異性抗病性[91]調控方面發揮作用。
隨著對植物lncRNAs研究的進一步深入,會揭示出更多的功能。如最近的一項研究表明,在不同發育階段的不同水稻和玉米器官轉錄組中鑒定出22 334個lincRNAs和6 673對正義和自然反義轉錄本(NAT),整合全基因組關聯研究(Genome-wide association studies,GWAS),發現數百個 lincRNAs包含性狀相關的單核苷酸多態性(Single nucleotide polymorphisms,SNPs),顯示它們與這些作物的發育性狀和農業性狀有關[92]。因此,有人提出包括lncRNAs在內的ncRNAs可作為作物品種改良的潛在工具[93]。