桑世葉 任強 吳霜寒 劉長寧

摘要 長非編碼RNA(long non-coding RNA,lncRNA)的重要性在近年來的研究中日益凸顯。由于lncRNA的同源性、保守性和特異性可以間接反映其生物學功能,越來越多的研究聚焦于理解lncRNA的進化過程。現主要就lncRNA基本性質、lncRNA鑒定方法、植物基因組進化以及植物lncRNA功能與進化的研究進展進行綜述,以期為更好地開展植物lncRNA進化研究提供參考。
關鍵詞 長非編碼RNA;植物;基本性質;鑒定方法;功能;進化
中圖分類號 Q943.2文獻標識碼 A文章編號 0517-6611(2020)22-0019-06
doi:10.3969/j.issn.0517-6611.2020.22.006
Research Progress on the Evolution of Long Non-coding RNA in Plants
SANG Shi-ye1,2,REN Qiang1,2, WU Shuang-han3 et al
(1.Xishuangbanna Tropical Botanical Garden,Chinese Academy of Sciences, Xishuangbanna, Yunnan 666303;2. University of Chinese Academy of Sciences, Beijing 100049;3.Sichuan Agricultural University, Chengdu, Sichuan 611130)
Abstract The importance of long non-coding RNA (lncRNA) has become increasingly prominent in recent years. Since the homology, conservation and specificity of lncRNA can indirectly reflect its biological functions, more and more researches focus on understanding the evolution process of lncRNA.This paper mainly reviewed the research progress on the basic properties of lncRNA, the identification methods of lncRNA, the evolution of plant genome and the function and evolution of plant lncRNA, in order to provide reference for the better development of the evolution of plant lncRNA.
Key words Long non-coding RNA;Plant;Basic properties;Identification methods;Function;Evolution
基金項目 國家自然科學基金面上項目(31970609)。
作者簡介 桑世葉(1994—),女,四川成都人,碩士研究生,研究方向:植物長非編碼RNA的進化分析。*通信作者,研究員,博士,博士生導師,從事長非編碼RNA和生物信息學研究。
收稿日期 2020-04-03
轉錄組測序揭示了高等真核生物的絕大部分基因組序列是被轉錄的。然而大于75%的轉錄本不會被翻譯為蛋白質,這些轉錄本被稱為非編碼RNAs(ncRNA)。長非編碼RNAs(long non-coding RNAs,lncRNA)作為ncRNA的重要組成部分,被定義為長度大于200個核苷酸(nt)的ncRNA,獨立轉錄,但不具有編碼功能蛋白的潛力。他們主要在RNA水平上發揮多種生物學功能,包括染色體劑量補償效應、招募染色質重塑復合物到特定位點、模擬miRNAs靶標競爭性結合miRNAs、產生siRNA介導靶基因啟動子區甲基化水平升高等。lncRNA在進化過程中具有保守性和特異性2個非常重要的生物學特征。lncRNA的保守性有3個維度,即序列保守性、結構保守性和位置保守性。lncRNA的特異性則包括種系特異性和組織特異性。由于lncRNA的同源性、保守性和特異性可以間接反映其生物學功能,越來越多的研究聚焦于理解lncRNA的進化過程。其中動物lncRNA的進化分析尤其受到關注,為理解動物lncRNA的進化歷史、功能以及調控網絡進化做出了重要貢獻。反觀植物領域,lncRNA在多物種中大規模進化分析的繁榮景象尚未出現,但仍有一些研究進行了相關探索。筆者通過對植物lncRNA的進化研究,以及與其息息相關的lncRNA生物學功能、lncRNA基因進化、植物基因組進化等多個研究領域進行闡述,以期為植物lncRNA的進化研究提供理論支撐和新的思考。
1 長非編碼RNA 概述
1.1 長非編碼RNA的特征和分類
遺傳信息從基因序列到蛋白質的流動過程中,RNA承擔著傳遞信息的重要角色。在測序技術尚未成熟時,人們普遍認為真核生物的基因組絕大部分是由編碼蛋白的基因序列組成,而非編碼區域則并不具有生物學功能。但事實證明,人們低估了非編碼RNA(ncRNA)種類和功能的多樣性。常見的非編碼RNA 包括 tRNA、rRNA、microRNAs、piRNAs、snoRNAs、siRNAs、snRNAs、exRNAs、scaRNAs和lncRNAs等多種類型,其能通過在各個層次上調節從蛋白編碼基因到蛋白質的遺傳信息流,從而參與到生物體的各種生物學過程中。
lncRNA是一類長度大于200 nt,不具備編碼功能蛋白潛力,主要由RNA 聚合酶Ⅱ(PolⅡ)轉錄生成,并具備甲基鳥苷帽子和多聚腺苷酸(poly-A)結構的ncRNA,其初級結構保守性差,二三級結構保守性很強,且在表達上具有極強的時空特異性。
由于lncRNA的研究還處于起步階段,人們對它的認識還不夠深入,科學界至今還沒有統一的生物學分類標準。根據lncRNA與蛋白質編碼基因的相對位置,可以將其分為:①反義型(antisense),此類lncRNA的反義鏈位置上是一個已知的蛋白編碼基因;②內含子型(intronic),此類lncRNA處于蛋白編碼基因的內含子區域;③正義型(divergent),此類lncRNA是由蛋白編碼基因的正義鏈轉錄而來,序列內含蛋白編碼基因的外顯子;④基因間區型(intergenic),此類lncRNA處于蛋白編碼基因之間,且與蛋白編碼基因的距離在人類基因組上大于5 kb[1]。除此之外,還可以根據lncRNA的保守性,將其分為:①外顯子-內含子結構保守型(conserved exonic structure),此類lncRNA的外顯子-內含子結構和此結構處的多個序列在物種間保守;②序列保守型(conserved sequence),此類lncRNA是一類序列保守的lncRNA;③位置保守型(positionally conserved),此類lncRNA的上游或下游相似位置處具有直系同源的編碼基因[2]。
1.2 長非編碼RNA的生物學特性
在lncRNA發現的早期,人們對其生物學特性還缺乏充分的認識。由于蛋白編碼基因的研究早已趨于成熟,所以研究者們嘗試運用蛋白編碼基因的研究手段來探索lncRNA的特性。但研究者們很快發現,lncRNA在序列結構、保守性、進化規律等方面都有很大的不同。近年來人們主要將對lncRNA生物學特性的研究重點放在保守性和特異性2個方面。
在lncRNA的保守性上,幾乎所有的研究都得出了一致的結論,即lncRNA的保守性相較蛋白編碼基因來說非常低。但研究lncRNA的保守性依舊為理解lncRNA做出了重要貢獻,所以仍然具有重要的意義。lncRNA的保守性主要可以從序列保守性、結構保守性和位置保守性3個方面來研究[2]。lncRNA在這3個方面的保守性并非完全獨立的,需要研究者們綜合考慮并靈活選用。在序列保守性上,lncRNA序列保守性低僅是相較于蛋白編碼基因序列而言的,如果與內含子序列和基因間區序列相比,lncRNA的序列仍具有較高的保守性。隨著近年來轉錄組測序技術的發展,lncRNA的分析進入了超大規模的時代,對lncRNA的保守性低也出現了新的闡釋。有研究指出,大多lncRNA的序列是具有保守性的,只是其保守性僅僅體現在一些小段的序列斑塊上,且這些短序列大多出現在啟動子區域,所以lncRNA的保守片段表現出5′端偏向性。在lncRNA行使功能時,只需要這些短序列發揮作用,所以表現出該lncRNA序列能夠容忍基因結構重大變化的現象[3]。在結構保守性上,當僅使用序列保守來定義同源性而無法完全識別物種間的同源基因對時,通過結構保守就可以找到這些缺失的同源性的說法至今還沒有證據可以證明。但是,利用全基因組比對的方法,可以預測序列中一些短的區域是在二級結構的約束下進化的,并且lncRNA外顯子和這些短的區域的重疊部分在人類基因組和其他物種基因組中都很小。所以,雖然全基因組分析為尋找lncRNA中維持二級結構的選擇壓力僅提供了有限的支持,但這并不意味著基于結構的同源搜索對lncRNA同源檢測沒有用[2]。在位置保守性上,當比較遠緣的物種時,有相當數量的lncRNA是位置保守的,即與同源蛋白編碼基因和/或其他保守區域具有相同的相對方向,而它們中的大部分是不具有可檢測的序列同源性[3-5]。這些位置保守的基因對可能對應于那些功能序列過短或因過短而無法檢測到序列同源性的lncRNA,也可能對應于那些僅轉錄作用處于選擇壓力下的lncRNA。所以,位置保守性是對研究lncRNA保守性的有力補充。
在lncRNA的特異性上,其種系特異性和組織特異性則備受人們關注。在動物和植物中,lncRNA的種系特異性均有所發現。Derrien等[6]和Necsulea等[7]各自在對哺乳動物的lncRNA研究中均發現了大量靈長類特有的lncRNA。Washietl等[8]對6種哺乳動物中9個組織的lincRNA進行進化分析,發現一類人特有的富集于睪丸且進化速度非??斓膌ncRNA。Liu等[9]在擬南芥和其他植物物種間的比較分析表明,有98%的lncRNA是擬南芥特有的,只有少于2%的lncRNA是序列保守的。同時,還有很多研究證實了即使是同一組織中的lncRNA,它們在不同物種中的表達水平也會呈現出種系差異。由于lncRNA位點在進化過程中的獲得和丟失是非常常見的,所以lncRNA的種系特異性往往被認為與物種的適應性進化有關。除了lncRNA的種系特異性外,其組織特異性的特征也尤為顯著。Washietl等[8]研究發現在哺乳動物層面表達的lincRNAs表現出非常強的組織特異性。Hezroni等[3]通過對睪丸、腦、肝臟和腎4個組織的轉錄組數據進行比較分析,發現lncRNA在睪丸中的表達水平遠遠高于另外3個組織。Deng等[10]在植物中的研究也發現大量組織特異性表達的lncRNA,同時還發現不保守的lncRNA組織特異表達的比例高于保守的lncRNA。
1.3 長非編碼RNA的生物學功能及調控方式
起初,lncRNA被認為是基因組轉錄的“噪音”,是RNA聚合酶Ⅱ的副產物,是不具有生物學功能的“垃圾”序列[11]。但越來越多的研究已經證實,lncRNA在生命調控網絡中起著至關重要的作用,廣泛參與DNA甲基化、組蛋白修飾、染色質重塑、細胞周期調控、mRNA降解、基因印記、增加mRNA的穩定性、調控絲氨酸、精氨酸剪接因子磷酸化等生物學過程,能與DNA、RNA、蛋白質分子作用,順式或反式調控靶基因表達[12]。雖然人們已經逐漸意識到lncRNA在生命過程中發揮的巨大作用,但目前仍只有一小部分lncRNA被證實具有重大的生物學意義。例如,Xist 首先從X失活中心(X inactivation center,Xist)轉錄,通過招募PRC2靶向作用于X染色體特定位點,促進組蛋白H3第27位賴氨酸三甲基化(histone H3 lysine K27 trimethylation,H3K27me3),介導相關基因沉默[13-16]。而嚴重危害人類健康的癌癥也被證實與lncRNA的調控密切相關,如印記基因H19,與正常組織相比在患癌組織中均呈現出高表達[17]。在水稻“農墾58S”中,一條名為LDMAR的lncRNA通過產生許多siRNAs使自身啟動子甲基化水平升高從而無法轉錄,導致雄性光敏不育[18]。有研究表明,在植物的春化過程中,開花抑制基因FLC上轉錄的反義lncRNA(COLDAIR、COOLAIR)可以通過招募染色質重塑復合體PRC介導FLC染色質重塑來抑制FLC的表達,從而調控開花時間[19-20]。
盡管現有研究表明這些lncRNA可以通過直接或間接調控基因的表達來參與各種生物學過程,但絕大部分lncRNA的功能機制及其與生物體生長發育的關系尚不清楚。為了更好地理解lncRNA對基因表達的調控,有研究將lncRNA行使功能的作用方式分為以下幾種:①在基因上游區域轉錄,從而干擾編碼基因的轉錄;②介導染色質重塑和組蛋白修飾影響基因的表達;③調控可變剪切模式;④與Dicer酶共同作用產生內源siRNA調控基因的表達;⑤直接調節相關蛋白的活性影響蛋白發揮作用;⑥作為結構成分促使核酸蛋白復合體的形成;⑦改變蛋白質的定位;⑧與相關小分子如miRNA相互作用[21-22]。此后,李睿等[12]、王國峰[21]又將lncRNA調控基因表達分為3個層面:lncRNA參與基因表觀遺傳調控、lncRNA參與基因轉錄調控、lncRNA參與基因轉錄后調控,揭示了lncRNA可以在多個層面上以不同方式調控編碼基因的表達,更加系統全面地概括了lncRNA參與生物學途徑的方式。隨著人們對lncRNA的了解更加深入,Wang等[23]在2011年首次提出將lncRNA行使生物學功能的方式分為4類:信號分子、誘餌分子、引導分子、支架分子,為推進lncRNA研究的發展做出了重大貢獻。
1.4 長非編碼RNA的起源
大量研究發現,無論是在動物還是植物基因組中的大多數lncRNA在經過千萬年進化而分離的物種中沒有同源物,表明lncRNA序列在物種間的保守性很低,這預示著新的lncRNA起源頻率非常高。對于 lncRNA 的起源,Ulitsky[2]研究提出,物種進化過程中lncRNA的形成有5種機制:
①lncRNA序列復制產生新的lncRNA;
②蛋白質編碼基因失去編碼潛力產生新的lncRNA;
③經轉座子整合后形成新的轉錄單元產生新的lncRNA;
④增強剪接信號的突變將具有轉錄潛力的序列轉化為穩定的RNA,隨后獲得功能形成新的lncRNA;
⑤一系列適應成為新的lncRNA。
1.5 長非編碼RNA的鑒定方法及鑒定流程
由于lncRNA的進化速率很快,序列保守性很低,且具有復雜多樣的行使生物學功能的方式,所以很難尋求在基因組層面上鑒定lncRNA的算法。目前人們主要通過微陣芯片技術和轉錄組測序分析2種方法來鑒定lncRNA,由于微陣芯片技術存在交叉雜交和不能鑒定新的lncRNA等問題,所以僅僅用于早期的lncRNA鑒定。反之,隨著近年來高通量測序技術和生物信息學的飛速發展,測序成本逐年降低,通過基因組和轉錄組測序來研究基因的進化和表達成為最主流的研究手段之一[24-25],相關的研究報道也是越來越多,使通過生物信息學方法分析RNA-seq數據,挖掘lncRNA序列、結構、進化、表達及功能等重要信息,并結合試驗驗證解析具有重要功能lncRNA調控機理的研究方法得到十分廣泛的應用。
典型的RNA-seq工作流程的主要步驟包括總RNA提取、RNA富集、文庫制備和測序。對于RNA富集,有2種方法,一是富集具有poly-A尾的RNA,二是去除核糖體RNA,保留剩余RNA。Poly-A RNA-Seq獲得的RNA大約占一個物種總RNA的1/3,用于檢測lncRNA的表達時是一種性價比較高的技術,但會遺漏掉不含有 poly-A 尾的 lncRNA。所以,目前使用較多的方法是去除核糖體RNA,此方法可以保留樣本中完整的轉錄組,包括poly- A +和poly-A-轉錄本 。由于測序技術在實踐過程中不能直接對RNA分子進行測序(目前已有技術可以做到,如納米單分子測序技術),所以文庫制備是進行測序之前的必要步驟,其目的主要有2個:①文庫制備可以如實地代表樣品中的RNA;②將RNA分子轉化為更穩定的cDNA進行測序。
測序技術不斷進步,第三代測序技術已經應運而生,也稱下一代測序技術。第三代測序技術憑借著片段讀長更長的優勢在基因組研究中得到廣泛應用,但由于測序通量低、測序成本貴、測序錯誤率高等缺點,它并沒有完全占據市場,以Illumina平臺為代表的第二代測序技術仍然普遍被應用。所以根據測序數據的來源,主要將lncRNA的鑒定分析流程大體上分為兩類(圖1):①通過Illumina測序技術產生的數據的鑒定分析流程;②依靠第三代測序技術進行的數據的鑒定分析。
鑒定分析流程中所涉及到的lncRNA的識別和預測,主要包含基本篩選和潛在編碼能力篩選2個部分。基本篩選主要是根據lncRNA定義中對其長度大于200 nt的規定。潛在編碼能力篩選所依據的原理主要是通過lncRNA的序列特征如堿基的排列、密碼子的分布情況、組蛋白的修飾位點、序列的保守性等來預測該基因的蛋白編碼潛能,從而區分蛋白編碼基因和非蛋白編碼基因。目前有多種lncRNA預測軟件供研究者們使用,主要包括CPC2(coding potential calculator 2)、CNCI(coding-non-coding index)、PfamScan、CPAT(coding-potential assessment tool)等。 CPC2是一款非常流行的lncRNA預測軟件,主要是利用Fickett TESTCODE分數、開放閱讀框(ORF)長度、ORF完整性和等電點(pI)4個內在特征訓練一個支持向量機(SVM)模型,從而預測轉錄本編碼蛋白的潛力并對其進行分類。CPC2的運行速度比它的上一代CPC1快約1 000倍,并且與CPC1相比顯示出更高的準確性,尤其是對于長非編碼轉錄本而言[26]。此外,CPC2的模型是物種中性的,使其對于不斷增長的非模式生物轉錄組是可行的。CNCI是中科院計算所趙屹團隊開發的一款lncRNA預測工具,通過解析相鄰的核苷酸三聯體(adjoining nucleotide triplets,ANT),包括核苷酸三聯體在編碼域序列(CDS)和非編碼RNA序列中的使用頻率來構建SVM分類器,從而有效地區分蛋白質編碼和非編碼序列,而不依賴于已知的注釋;這個工具適用于不完整的序列,如EST序列或從頭拼接的轉錄本。Pfam是一個大型蛋白結構域家族的數據庫,每個蛋白家族都由多個序列比對和隱馬爾可夫模型(hidden Markovmodels,HMMs)所體現[27]。PfamScan可以通過分析基因的蛋白結構域來預測該基因的蛋白編碼潛力,從而區分蛋白編碼基因和非蛋白編碼基因。CPAT使用了一個免比對的邏輯回歸模型,該模型具有開放閱讀框大小、開放閱讀框覆蓋率、Fickett TESTCODE統計量和六聚體使用偏差4個序列指標[28]。CPAT預測lncRNA具有優異的性能,準確度高,速度快。lncRNA的預測除了以上介紹的4種工具以外還有很多其他的預測工具,他們的核心思想都是通過估計基因的蛋白編碼潛力來實現分類,只是具體的計算方式不一樣。根據所持數據的不同情況,這些工具的預測準確度各有優劣,可以通過計算幾種工具預測結果的交集作為最佳結果進行后續分析。
2 植物長非編碼RNA進化與基因組進化的研究現狀
2.1 長非編碼RNA基因進化
現有動植物lncRNA進化的研究表明,與蛋白編碼基因和miRNAs相比,lncRNA序列在物種間的保守性很低。例如,在小鼠和人類基因組中,大部分lncRNA在序列上的一致性都低于70%[29]。Liu等[9]研究發現,在擬南芥和其他植物物種間只有少于2%的lncRNA是序列保守的。這預示著新lncRNA的產生頻率非常高,這種快速進化有助于組織和譜系特異性的 lncRNA 的出現,從而有利于物種之間形態差異的產生[30]。在真核生物中,生物體的復雜程度與基因組中 lncRNA含量的多少有關,而不是與整體 DNA 含量或編碼基因的數目相關。因此,在基因組中lncRNA的擴增有利于復雜生物的進化[31]。由于 lncRNA 功能和分子進化的研究還處于初級階段,lncRNA進化與物種特異特征之間的關系還有待進一步的研究。
2.2 植物長非編碼RNA生物學功能
lncRNA 最先在人類中發現并報道,目前在人和動物中已經發現了很多lncRNA具有重要功能,如染色體劑量補償效應、基因印記、器官形成、癌癥等[32-33]。但在植物中僅少量lncRNA的功能被研究,大部分的研究都集中在對 lncRNA 的鑒定和功能預測上,包括其參與植物的生長發育過程、代謝過程和各種激素及脅迫的響應。最初,lncRNA的鑒定都集中在擬南芥、玉米、水稻等模式植物中,但隨著測序成本的降低,目前有很多植物的lncRNA已經被鑒定,發展了很多關于植物lncRNA的數據庫,典型的有GREENC、CANTATAdb、RefSeq等。
lncRNA開始對植物科學家們產生巨大吸引力很大程度上來自于人們對lncRNA調控植物開花過程的發現,這一過程是通過lncRNA調節春化作用來實現的,COOLAIR、COLDAIR和COLDWRAP就是這一過程中的典型代表。FLOWERING LOCUS C(FLC)基因是調控植物春化作用的關鍵基因,COOLAIR是FLC的反向轉錄本(NAT lncRNA),COLDAIR是來自于FLC的內含子區域的lincRNA,而COLDWRAP是轉錄于FLC的啟動子上游的一條正義lncRNA。COOLAIR 的表達會招募相關蛋白清除FLC 上激活型組蛋白甲基標記,從而沉默FLC 轉錄本[34]。COLDAIR 則是通過結合PcG 蛋白復合體形成FLC染色質組蛋白抑制型甲基化,引起FLC 的沉默[35]。COLDWRAP可以參與調節春化作用介導的多梳復合物或影響FLC基因內染色質環的形成沉默或抑制FLC的表達[36]。3條lncRNA 都通過抑制FLC基因的表達參與調節春化作用,從而影響植物從營養生長向生殖生長的轉變以及開花時間的早晚。除了上述3條與FLC有關的lncRNA外,擬南芥中還有一條名為FLORE的lncRNA也與開花過程相關,它可以通過抑制幾種CDFs(CDF1、CDF3、CDF5)和增加FT轉錄水平來促進開花[36]。
生殖轉變是植物生殖發育的第一步,lncRNA在生殖轉變中具有如此重要的調控作用,暗示著lncRNA在植物生殖發育過程中的重要性。目前功能研究清楚的lncRNA中很多都有參與調控這一過程。例如,調控水稻長日照特異雄性不育的一個重要lncRNA LDMAR。LDMAR 會產生許多的siRNAs調控自身啟動子甲基化水平升高從而無法轉錄,表達量的降低會造成未成熟花藥的過早程序性細胞死亡,從而造成光敏型雄性不育[18]。擬南芥中的一條反義lncRNA asHSFB2a受熱誘導會上調表達,從而調控擬南芥配子體發育過程中的熱休克因子HSFB2a,最終影響配子體的發育[37]。除此之外,人們在其他物種中也發現有調節花粉發育的lncRNA,如在玉米中的一個雄蕊特異表達的lncRNA Zm401。Zm401基因的表達下調會顯著影響花粉發育的關鍵基因ZmMADS2、MZm3-3和ZmC5的表達;導致小孢子和為花粉粒發育供應養分的絨氈層發育異常,最終導致玉米的雄性不育[38]。大白菜中也有一類名為BcMF11 的lncRNA 在調節花粉發育和雄蕊育性中行使功能,該lncRNA 長828 nt,在整個花粉發育階段都有表達,當其表達降低時,絨氈層降解會延遲,造成花粉粒無法成熟[39-40]。
2.3 植物長非編碼RNA進化
隨著高通量測序技術的發展,越來越多的物種基因組被測序,使通過蛋白編碼基因序列和表達圖譜進化分析來研究家系特異表型遺傳基礎和單個基因功能成為可能。對于lncRNA,盡管轉錄組測序技術日漸成熟,但由于lncRNA沒有易于計算的特征,注釋不全,所以此類進化分析的研究仍然很匱乏,尤其是在植物中。近年來在人類、小鼠、擬南芥、水稻等生物中鑒定出了成千上萬的lncRNA,盡管大部分lncRNA的功能還不清楚,但已經發現一部分lncRNA參與非常重要的生物學過程。所以發現哪些lncRNA有功能以及它們如何行使功能成為一個熱門的科學問題,而lncRNA的進化研究是探索這一問題的重要科學手段。在基因的進化研究中,基因的同源性為比較不同物種在特定功能上或某個基因的遺傳背景相似性提供了一個重要的研究線索。同源基因(homologous gene)是指由一個共同祖先在不同物種中遺傳下來的基因,可以劃分為直系同源基因和旁系同源基因。直系同源基因(orthologs)被定義為從同一祖先垂直進化而來的,作為物種形成的伴隨事件而被重復,并通常繼續保有相同生物學功能的基因[41]。旁系同源基因(paralogs)分為兩類,一類是指由單個物種基因組中發生的各類復制事件而產生的基因,另一類旁系同源基因是指由于共同祖先的基因復制產生的并遺傳到不同物種中的基因。旁系同源基因在功能上要么出現分化,要么產生計量補償效應[41]。因為直系同源基因具有基因挖掘、基因注釋、分子標記、協助構建基因間系統發生關系和追溯基因的進化歷史等作用,所以目前已經被用于大量研究中,其鑒定方法也更加成熟。直系同源基因的識別方法主要可以總結為3類:①通過對比基因序列間的相似性來識別直系同源基因;②通過構建系統發育樹推測直系同源關系;③結合基因序列比對和構建系統發育樹2種方法來鑒定直系同源基因。
在動物中,Washietl等[8]分析發現在哺乳動物層面表達的lincRNAs表現出非常強的組織特異性的保守性,且相對于進化較年輕的lincRNA,在哺乳動物層面的lincRNA在啟動子和外顯子中表現出更高一級的序列保守性,還發現了一類人特有的富集于睪丸且進化速度非??斓膌ncRNA 。Necsulea等[7]對四足動物lncRNA進化的研究表明,尤其是古老的lncRNA,通常是被活躍調控的,可能主要在胚胎發育中起作用;lncRNA可能在精子發生、突觸傳遞等基礎過程和胎盤發育等具體機制中發揮功能。Hezroni等[3]研究發現,功能保守的lncRNA在序列上的保守性僅體現在一些小段的序列斑塊的保守性上,該lncRNA行使功能只需要這些短序列發揮作用,以至于可以容忍基因結構的重大變化。Chen等[42]研究提出了一個可以鑒定高質量lncRNA并對其進行進化分析的工具slncky,進一步推進了lncRNA研究的發展。
在植物中,Liu等[9]研究發現在擬南芥中鑒定出的lncRNA一部分是器官特異性表達的,而其余的則是響應生物和非生物脅迫的,與其他6個植物物種相比,僅少于2%的lncRNA是進化保守的。Li等[43]通過對玉米和高粱lncRNA進行比較分析,發現只有25%的lncRNA是保守的。盡管大多數lncRNA的序列保守性很低,但對lncRNA進行全局性統計分析的研究表明,lncRNA在共線性和基因結構上具有進化保守性[4,10,24]。例如,Nitsche等[24]研究通過剪接位點的保守性來追蹤lncRNA的進化,發現超過85%的人類lncRNA出現在胎盤哺乳動物的分化中。Deng等[10]對10種植物保守性分析的研究發現,序列和位置不保守的lncRNA組織特異表達的比例高于保守的lncRNA,表明保守的lncRNA比不保守的lncRNA更傾向于構成表達。
2.4 植物基因組進化
與其他真核生物基因組不同,植物基因組往往以更高的速率進化,從而導致更高的基因組多樣性[44-45]。例如,親緣關系密切的植物物種之間基因組大小的差異要比親緣關系密切的動物物種之間的差異大得多[46]。同時,與動物不同,古老的復制事件、復制基因的高保存率以及全基因組加倍事件導致了植物基因組中存在大量的復制基因[46]。
基因復制是基因組序列和蛋白-蛋白相互作用(PPI)網絡生長的重大進化事件。它被認為是形成和重構生物體功能的主要貢獻者,因此得到了廣泛的研究,特別是就其在進化中的作用而言[47]?;驈椭谱畛蹙哂腥哂喙δ埽赡芨淖兓騽┝亢?或重塑基因組結構,對基因的進化起到了至關重要的作用[48]。lncRNA基因的進化作為基因組進化的一部分,復制事件也必然與其有著密不可分的聯系。
就對基因組的影響程度而言,全基因組復制是最具顛覆性的基因復制形式,它涉及到整個染色體或整個基因組的復制,對現存的復制基因貢獻最大[46],因此被認為是物種多樣性的主要驅動力[48]。在動物中,最近的全基因組加倍事件發生在大約450百萬年前的人類譜系和大約200百萬年前的出芽酵母譜系中[49-50]。而在被子植物中,全基因組加倍事件在過去200百萬年的進化過程中發生了很多次[51-55],并且基因組測序還在繼續揭露更多的全基因組加倍事件[56-61],這可以合理地解釋多倍體和旁系同源基因在植物物種中的普遍存在。例如,全基因組復制導致蕪菁[62]、野蘿卜[63]、小麥[64]的三倍體化以及栽培草莓[65]的八倍體化。一項鑒定41個陸地植物基因組序列中重復基因的研究表明,平均64.5%的植物基因是旁系同源的,從苔蘚植物小立碗蘚的45.5%到蘋果的84.4%[46]。
從以上研究可以看出,相對于動物來說,植物基因組的進化要快得多,這可以合理地解釋植物lncRNA保守性較差、起源時間較晚的現象。所以,植物基因組的進化對研究植物lncRNA的進化保守性是具有很大的啟發和指導意義的。
3 總結
越來越多的研究表明,lncRNA可以以多種調控方式調節基因的表達,參與各種各樣的生物學過程,無論是在基礎理論還是在實際應用中,都足以證明lncRNA的重要性和對其進行研究的必要性。目前對lncRNA的研究大部分都集中在某些物種的某些lncRNA的功能研究或者lncRNA的序列結構和鑒定上,對lncRNA進化的研究很少,且注意力大多都放在了動物中。所以植物lncRNA的進化研究仍是一個重要、新穎且急待人們去探索的科學問題。目前高通量測序技術飛速發展,越來越多的植物物種被測序,有了完整的基因組數據。同時,基于表達序列標簽(expressed sequence tag)和全長cDNA測序(full length cDNA sequencing),微陣列芯片技術(tiling microarrays)和轉錄組測序(RNA-seq)的基因組學研究也已經逐步完善,為研究lncRNA的進化研究提供了良好的數據基礎。因此,采用生物信息學的方法大規模分析植物lncRNA數據,探尋植物lncRNA的進化規律成為一個重要的研究方向。此問題上的突破,必將推動植物全基因組水平上進化系統的研究,發掘和研究出更多植物lncRNA的功能,從而對lncRNA產生更加深刻的認識。
參考文獻
[1] MA L N,BAJIC V B,ZHANG Z.On the classification of long non-coding RNAs[J].RNA Biol,2013,10(6):925-933.
[2] ULITSKY I.Evolution to the rescue:Using comparative genomics to understand long non-coding RNAs[J].Nat Rev Genet,2016,17(10):601-614.
[3] HEZRONI H,KOPPSTEIN D,SCHWARTZ M,et al.Principles of long noncoding RNA evolution derived from direct comparison of transcriptomes in 17 species[J].Cell Rep,2015,11(7):1110-1122.
[4] MOHAMMADIN S,EDGER P P,PIRES J C,et al.Positionally-conserved but sequence-diverged:Identification of long non-coding RNAs in the Brassicaceae and Cleomaceae[J].BMC Plant Biol,2015,15:1-12.
[5] ULITSKY I,SHKUMATAVA A,JAN C H,et al.Conserved function of lincRNAs in vertebrate embryonic development despite rapid sequence evolution[J].Cell,2011,147(7):1537-1550.
[6] DERRIEN T,JOHNSON R,BUSSOTTI G,et al.The GENCODE v7 catalog of human long noncoding RNAs:Analysis of their gene structure,evolution,and expression[J].Genome Res,2012,22(9):1775-1789.
[7] NECSULEA A,SOUMILLON M,WARNEFORS M,et al.The evolution of lncRNA repertoires and expression patterns in tetrapods[J].Nature,2014,505(7485):635-640.
[8] WASHIETL S,KELLIS M,GARBER M.Evolutionary dynamics and tissue specificity of human long noncoding RNAs in six mammals[J].Genome Res,2014,24(4):616-628.
[9] LIU J,JUNG C,XU J,et al.Genome-wide analysis uncovers regulation of long intergenic noncoding RNAs in Arabidopsis[J].Plant Cell,2012,24(11):4333-4345.
[10] DENG P C,LIU S,NIE X J,et al.Conservation analysis of long non-coding RNAs in plants[J].Sci China Life Sci,2018,61(2):190-198.
[11] PONTING C P,OLIVER P L,REIK W.Evolution and functions of long noncoding RNAs[J].Cell,2009,136(4):629-641.
[12] 李睿,楊永芳,李冉,等.長鏈非編碼RNA的功能及其作用機制[J].生命科學,2016,28(6):703-711.
[13] MAENNER S,BLAUD M,FOUILLEN L,et al.2-D structure of the A region of Xist RNA and its implication for PRC2 association[J].PLoS Biol,2010,8(1):1-16.
[14] ARTHOLD S,KUROWSKI A,WUTZ A.Mechanistic insights into chromosome-wide silencing in X inactivation[J].Hum Genet,2011,130(2):295-305.
[15] ESCAMILLA-DEL-ARENAL M,DA ROCHA S T,HEARD E.Evolutionary diversity and developmental regulation of X-chromosome inactivation[J].Hum Genet,2011,130(2):307-327.
[16] JEON Y,LEE J T.YY1 tethers Xist RNA to the inactive X nucleation center[J].Cell,2011,146(1):119-133.
[17] GIBB E A,BROWN C J,LAM W L.The functional role of long non-coding RNA in human carcinomas[J].Molecular cancer,2011,10(1):1-17.
[18] DING J H,LU Q,OUYANG Y D,et al.A long noncoding RNA regulates photoperiod-sensitive male sterility,an essential component of hybrid rice[J].Proc Natl Acad Sci USA,2012,109(7):2654-2659.
[19]? KIM D H,XI Y P,SUNG S.Modular function of long noncoding RNA,COLDAIR,in the vernalization response[J].PLoS Genet,2017,13(7):1-18.
[20] CSORBA T,QUESTA J I,SUN Q W,et al.Antisense COOLAIR mediates the coordinated switching of chromatin states at FLC during vernalization[J].Proc Natl Acad Sci USA,2014,111(45):16160-16165.
[21] 王國峰.禾本科植物lncRNA的鑒定與分析[D].福州:福建農林大學,2018:2.
[22] LIN T,ZHU G T,ZHANG J H,et al.Genomic analyses provide insights into the history of tomato breeding[J].Nature genetics,2014,46(11):1220-1226.
[23] WANG K C,CHANG H Y.Molecular mechanisms of long noncoding RNAs[J].Mol Cell,2011,43(6):904-914.
[24] NITSCHE A,ROSE D,FASOLD M,et al.Comparison of splice sites reveals that long noncoding RNAs are evolutionarily well conserved[J].RNA,2015,21(5):801-812.
[25] LIN T,ZHU G T,ZHANG J H,et al.Genomic analyses provide insights into the history of tomato breeding[J].Nat Genet,2014,46(11):1220-1226.
[26] KANG Y J,YANG D C,KONG L,et al.CPC2:A fast and accurate coding potential calculator based on sequence intrinsic features[J].Nucleic Acids Res,2017,45:W12-W16.
[27] EL-GEBALI S,MISTRY J,BATEMAN A,et al.The Pfam protein families database in 2019[J].Nucleic Acids Res,2019,47:D427-D432.
[28] WANG L G,PARK H J,DASARI S,et al.CPAT:Coding-potential assessment tool using an alignment-free logistic regression model[J].Nucleic Acids Res,2013,41(6):1-7.
[29] PANG K C,FRITH M C,MATTICK J S.Rapid evolution of noncoding RNAs:Lack of conservation does not mean lack of function[J].Trends Genet,2006,22(1):1-5.
[30] KUTTER C,WATT S,STEFFLOVA K,et al.Rapid turnover of long noncoding RNAs and the evolution of gene expression[J].PLoS Genet,2012,8(7):1-15.
[31] SUN? X M,TANG Y P,MENG X Z,et al.Sequencing and analysis of a genomic fragment provide an insight into the Dunaliella viridis genomic sequence[J].Acta Biochim Biophys Sin,2006,38(11):812-820.
[32] AZEVEDO-MARTINS A C,MACHADO A C L,KLEIN C C,et al.Mitochondrial respiration and genomic analysis provide insight into the influence of the symbiotic bacterium on host trypanosomatid oxygen consumption[J].Parasitology,2015,142(2):352-362.
[33] EWART K M,JOHNSON R N,OGDEN R,et al.Museum specimens provide reliable SNP data for population genomic analysis of a widely distributed but threatened cockatoo species[J].Mol Ecol Resour,2019,19(6):1578-1592.
[34] HAN S Y,LIANG Y C,LI Y,et al.Lncident:A tool for rapid identification of long noncoding RNAs utilizing sequence intrinsic composition and open reading frame information[J].Int J Genomics,2016,2016:1-11.
[50] DEHAL P,BOORE J L.Two rounds of whole genome duplication in the ancestral vertebrate[J].PLoS Biol,2005,3(10):1700-1708.
[51] LYONS E,PEDERSEN B,KANE J,et al.Finding and comparing syntenic regions among Arabidopsis and the outgroups papaya,poplar,and grape:CoGe with rosids[J].Plant Physiol,2008,148(4):1772-1781.
[52] SOLTIS D E,ALBERT V A,LEEBENS-MACK J,et al.Polyploidy and angiosperm diversification[J].Am J Bot,2009,96(1):336-348.
[53] LEE T H,TANG H B,WANG X Y,et al.PGDD:A database of gene and genome duplication in plants[J].Nucleic Acids Res,2013,41:1152-1158.
[54] RENNY-BYFIELD S,WENDEL J F.Doubling down on genomes:Polyploidy and crop plants[J].Am J Bot,2014,101(10):1711-1725.
[55]? SOLTIS D E,VISGER C J,SOLTIS P S.The polyploidy revolution then...and now:Stebbins revisited[J].Am J Bot,2014,101(7):1057-1078.
[56]? VELASCO R,ZHARKIKH A,AFFOURTIT J,et al.The genome of the domesticated apple(Malus x domestica Borkh.)[J].Nat Genet,2010,42(10):833-839.
[57]? DHONT A,DENOEUD F,AURY J M,et al.The banana(Musa acuminata)genome and the evolution of monocotyledonous plants[J].Nature,2012,488(7410):213-217.
[58]? WANG Z W,HOBSON N,GALINDO L,et al.The genome of flax(Linum usitatissimum)assembled de novo from short shotgun sequence reads[J].Plant J,2012,72(3):461-473.
[59]? LU F,LIPKA A E,GLAUBITZ J,et al.Switchgrass genomic diversity,ploidy,and evolution:Novel insights from a network-based SNP discovery protocol[J].PLoS Genet,2013,9(1):1-14.
[60]? MYBURG A A,GRATTAPAGLIA D,TUSKAN G A,et al.The genome of Eucalyptus grandis[J].Nature,2014,510(7505):356-362.
[61]? WANG W,HABERER G,GUNDLACH H,et al.The Spirodela polyrhiza genome reveals insights into its neotenous reduction fast growth and aquatic lifestyle[J].Nat Commun,2014,5:1-13.
[62]? LYSAK M A,KOCH M A,PECINKA A,et al.Chromosome triplication found across the tribe Brassiceae[J].Genome Res,2005,15(4):516-525.
[63]? MOGHE G D,SHIU S H.The causes and molecular consequences of polyploidy in flowering plants[J].Ann N Y Acad Sci,2014,1320(1):16-34.
[64] SALSE J,BOLOT S,THROUDE M,et al.Identification and characterization of shared duplications between rice and wheat provide new insight into grass genome evolution[J].Plant Cell,2008,20(1):11-24.
[65] BYRNE D H,JELENKOVIC G.Cytological diploidization in the cultivated octoploid strawberry Fragaria × ananassa[J].Can J Genet Cytol,1976,18(4):653-659.