牟 丹, 趙啟軍, 劉玉英, 李長慧, 謝久祥*
(1. 青海大學省部共建三江源生態與高原農牧業國家重點實驗室, 青海 西寧 810016; 2. 青海大學農牧學院, 青海 西寧 810016)
青藏高原高寒地區氣候嚴寒,不利于牧草生長和越冬,豆科牧草品種選育和引種工作的開展較為困難[1]。長期以來,科學研究工作者在青藏高原高寒地區(尤其是青海省的高寒地區)進行了大量的豆科牧草引種試驗,主要結果為:在海拔2 500~3 000 m的地方,引種成功的報道很多,如黃花草木樨(Melilotusofficinalis(L.) Lam.)、紅豆草(Onobrychisviciifolia)、‘甘農1號’雜花苜蓿(MedicagovariaGannong No.1)、截形苜蓿(MedicagotruncatulaParaggio)、波斯三葉草(TrifoliumresupinatumKyambro)等[1-4];在海拔3 000~3 300 m的地方,引種成功的報道很少,如甘肅紅豆草(OnobrychisUicicaefoliaGansu)、‘甘農1號’雜花苜蓿和‘青大1號’紫花苜蓿(MedicagosativaL. Qingda No.1)[5-7];在海拔3 300 m以上的地方,雖有幾次嘗試,均以失敗告終[8]。由此可見,引進豆科牧草是青藏高原高寒地區草業科技工作者長期攻堅的難題。
高加索三葉草是目前已知三葉草屬中唯一一種具有密集根狀莖系統且可利用地下根蘗進行克隆生長的多年生豆科牧草,抗逆性極強[9-10],如抗寒耐鹽性優于紅三葉(TrifoliumpratenseL.)和白三葉(Trifoliumrepens L.)[11],抗旱性也強于白三葉和地三葉(TrifoliumsubterraneumL.)等[12]。本研究團隊前期在青藏高原進行的高加索三葉草引種試驗表明,從內蒙古農業大學引進的高加索三葉草育成品種‘蒙農三葉草1號’能夠在青海省河南蒙古自治縣(簡稱:河南縣)海拔3 640 m的地方自然越冬,越冬率高達98%。高加索三葉草能夠經歷青藏高原高寒地區長時間的低溫(河南縣在2015年至2021年期間的最低溫度為-30℃)而自然越冬,說明其對長時間的低溫脅迫具有很強的耐受性。因此,高加索三葉草抵御高寒地區秋冬季節長時間低溫脅迫的生理生化機制值得研究。早前對于該物種面臨長時間低溫脅迫的研究主要從物理和生理水平著手,即通過長時間的田間觀察其是否能安全越冬,或者采用生理生化指標檢測其抗寒生理[13]。然而,從分子水平對其響應低溫脅迫的研究極少,且僅是通過Illumina平臺的二代測序技術對人工模擬短期低溫脅迫的高加索三葉草葉片做了轉錄組比較分析[9,14]。鑒于高加索三葉草還未進行全基因組測序,為了更好地解釋這一現象,我們有必要利用更為準確的第三代轉錄組測序技術從分子水平來分析其對長時間低溫脅迫的響應機制。
目前,基于第二代測序技術的RNA-seq技術最為常見,在農學、醫學和基礎生物學等研究領域廣泛應用;但因第二代測序技術讀取長度短,堿基錯配,組裝出來的轉錄本的結構不完整等,RNA-Seq的發展受到一定限制,第三代測序技術(即全長轉錄組測序技術)應運而生;與二代測序相比,三代測序技術能夠在轉錄組水平上提供讀取長度更長和準確性更高的轉錄本,并且對于沒有參考基因組的物種,還可提高其轉錄組表征的準確性[15]。但是,兩種測序技術各有優劣,近兩年越來越多的學者通過三代與二代測序技術相結合的方法,對遭受低溫脅迫的植物進行了測序分析,獲得了大量與植物響應低溫脅迫有關的基因信息[16-17]。
轉錄因子(Transcription factor,TF)是能夠專一地結合目的基因上游的特異核苷酸序列,激活或抑制靶基因的一類含有特殊結構的蛋白,參與植物應對生物/非生物脅迫和生長發育等過程[18-19]。Dof蛋白即DNA結合單鋅指(DNA-binding with one finger)蛋白,是植物中的一種特有轉錄因子,在裸子、被子和一些低等的藻類植物中均存在[18]。Dof轉錄因子的N-末端含有高度保守的C2-C2型單鋅指結構域,C-末端為特異轉錄調控結構域,可調控下游基因的表達,在植物生長發育、逆境響應、代謝調節和農藝性狀改良等方面具有重要作用[18-19]。逆境響應方面,Dof轉錄因子可能作為上游調控因子,在調控植物響應逆境(低溫、鹽分和干旱)脅迫中扮演重要角色[19]。
高加索三葉草能夠在海拔3 640 m的青藏高原安全越冬并正常生長,繁殖主要靠克隆生長的組織——根莖。因此,本研究以河南縣試驗地中正常生長期和低溫脅迫期的高加索三葉草根莖芽為材料,結合PacBio平臺的第三代測序技術和Illumina平臺的第二代測序技術對其進行測序,獲得了準確性更高的全長轉錄本,對其進行了功能注釋、結構分析和轉錄因子鑒定;并進一步基于全長轉錄組數據,鑒定并分析了高加索三葉草Dof轉錄因子的理化性質、亞細胞定位、系統進化及保守基序。本研究不僅可為高加索三葉草二代測序數據的拼接提供模板,為耐寒相關基因的鑒定和分子機理分析提供科學依據,還可為進一步研究Dof轉錄因子在高加索三葉草響應長時間低溫脅迫過程中的作用奠定理論基礎。
供試材料為高加索三葉草的育成品種‘蒙農三葉草1號’,其種子由內蒙古農業大學王明玖教授于2018年提供,并在2019年經育苗后種植于青海大學試驗地。2020年將青海大學試驗地的高加索三葉草實生苗的地下根莖移栽至河南縣試驗地,行距30 cm,株距15 cm。
1.2.1根莖芽的采集 2020年8月至 2021年1月,在河南縣試驗地分4個時期(NG,BW,EW,MW)對移栽后第一年的高加索三葉草根莖芽進行采集(表1),各時期樣本的生物學形態如圖1。采集樣品時,在各時期隨機選取高加索三葉草3株,將其根莖芽混為1個生物學重復,各時期各3個生物學重復。剪取根莖芽后,用UP水沖洗干凈并小心擦干,裝入凍存管后立即至于液氮中速凍,隨后再置于-80℃超低溫冰箱保存備用。

圖1 4個采樣時期的根莖芽生物學形態Fig.1 Biological morphology of rhizome buds in four sampling periods

表1 取樣日期及室外空氣溫度Table 1 Sampling date and outdoor air temperature
1.2.2總RNA提取與檢測 使用Trizol試劑盒,按照說明提取高加索三葉草根莖芽的總RNA。通過瓊脂糖凝膠電泳、NanoPhotometer spectrophotometer、Qubit2.0 Fluorometer和Agilent 2100 bioanalyzer對各樣品的RNA進行質量檢測。
1.2.3二代測序文庫的構建、測序與質控 采用NEB#7530試劑盒,對高加索三葉草根莖芽樣品的二代轉錄組測序文庫進行構建。總共創建了 12個樣品(NG,BW,EW,MW,4個時期各3次重復)的二代測序文庫。委托廣州基迪奧生物科技有限公司通過Illumina HiSeqTM4000測序平臺進行測序。高通量測序完成后,通過fastp[20]軟件對下機的Raw reads進行質控,最終得到高質量的clean reads。
1.2.4三代測序文庫的構建與測序 將4個采樣時期的高加索三葉草根莖芽樣品等量混合為1個樣品(簡稱MS)提取總RNA后進行三代全長轉錄組測序文庫的構建。采用Clontech SMARTer PCR cDNA Synthesis Kit進行文庫構建,主要步驟為:RNA樣本質檢;第一鏈cDNA合成;PCR擴增合成雙鏈cDNA;PCR產物純化;SMRTbell文庫構建。最后將SMRT bell文庫退火結合引物和聚合酶,由廣州基迪奧生物科技有限公司在PacBio Sequel II平臺進行測序。
采用Pacific Biosciences[21]支持的Isoform sequencing(Iso-Seq)對cDNA文庫的原始測序序列進行分析。具體分析過程為:選取下機數據中full passes數目大于等于1的序列開展環型一致性序列(Circular consensus sequence,CCS)分析,得到用于后續轉錄本分析的高精確度CCS reads(又稱HIFI reads);根據CCS reads是否都包含5′引物、3′引物和poly A結構來判斷轉錄本的完整性,包含這三種結構的序列稱為全長序列,進一步獲得全長非嵌合(FLNC)序列;用Minimap2將相似的FLNC序列進行層級聚類,獲取到一致性序列(Unpolished consensus isoforms);利用Quiver算法,對一致性序列進一步校正,根據輸出的序列準確度,獲得高質量序列(High quality isoforms,HQ isoforms,預測準確度≥0.99)和低質量序列(Low quality isoforms,LQ isoforms,預測準確度<0.99);利用相同樣品的二代Illumina測序數據,同時利用LoRDEC(version 0.8)[22]對上述低質量序列進行校正。校正后取校正覆蓋度(二代數據校正的堿基占三代一致性序列的百分比)達99%以上的低質量序列與Quiver校正得到的高質量序列進行合并,得到更準確的轉錄本,用于后續分析;使用軟件CD-HIT-V4.6.7對校正后的序列進行去冗余,最終得到MS樣品的非冗余轉錄本序列,即全長轉錄本序列。
1.3.1全長轉錄本功能注釋 通過NR(Non-Redundant Protein Sequence Database),SwissProt,KEGG(Kyoto Encyclopedia of Genes and Genomes),KOG(EuKaryotic Orthologous Groups)和GO(Gene Ontology)數據庫對isoforms進行功能注釋[23]。
1.3.2全長轉錄本結構分析 使用MISA軟件對所有的isoforms進行搜索,尋找其中的簡單重復序列(Simple sequence repeat,SSR),并進行統計分類;對沒有注釋到NR,SwissProt,KEGG和KOG四大數據庫的isoforms序列進行長鏈非編碼RNA(Long non-coding RNA,LncRNA)分析,主要通過CNCI和CPC軟件進行編碼能力預測,取兩個軟件都預測為“非編碼”的結果作為最終的LncRNA結果;利用軟件SUPPA對組裝出來的編碼序列進行可變剪切(Alternative splicing,AS)分析;通過TF數據庫(plant TFdb)進行hmmscan比對鑒定轉錄因子。
1.3.3高加索三葉草Dof轉錄因子家族鑒定分析 采用TBtools軟件對高加索三葉草Dof轉錄因子家族成員的相關理化性質進行預測;WoLF PSORT (https://www.genscript.com/wolf-psort.html) 預測亞細 胞定位;MEME (https://meme-suite. org/meme/tools/streme) 分析保守氨基酸基序,并通過TBtools可視化。借助MEGA 11鄰接法(Neighbor-joining,NJ)進行高加索三葉草和擬南芥Dof轉錄因子家族成員系統進化樹構建分析,并用利用iTOL (https://itol.emb.de/) 對構建的進化樹進行美化,其中擬南芥Dof家族成員序列來源于NCBI (https://www.ncbi.nlm.nih.gov) 網站。
在PacBio Sequel平臺上,對4個采樣時期的高加索三葉草根莖芽混合樣品(MS)構建一個全庫開展全長轉錄組測序,獲得的原始總堿基數為77.26 Gb,Subreads數量為49 485 458條,Subreads平均長度為1 561 bp,N50為1 811 bp。通過Full Passes≥1對Subreads進行篩選,得到1 016 541條高精度的CCS reads,其堿基數量為1 842 493 178 bp,平均長度為1 812 bp,平均Full Pass數量為44。進一步對以上CCS reads進行分類,得到894 504條全長非嵌合序列(FLNC reads),121 372條非全長序列,16 625條嵌合體序列,665條短序列。將FLNC reads進行層級聚類,獲取到一致性序列。然后利用Quiver算法對一致性序列進行校正后,獲得87 044條高質量序列和941條低質量序列。另一方面,通過Illumina RNA-seq高通量測序平臺,對4個采樣時期的高加索三葉草根莖芽共計12個樣品的cDNA文庫進行二代測序,共得到644.20百萬的raw reads,進一步得到641.19百萬的clean reads。為了提高根莖芽混合樣品全長轉錄本序列的準確性,利用Ilumina RNA-seq二代數據對低質量序列進行校正,與Quiver校正得到的高質量序列進行合并,進而得到更準確的轉錄本序列87 852條。再使用軟件CD-HIT-V4.6.7對校正后的序列進行去冗余,最終得到N50為1 916 bp的70 590條非冗余序列或稱全長轉錄本(即isoforms)。
70 590條中的67 684條Isoforms在NR,KEGG,KOG和SwissProt數據庫獲得注釋,注釋率達95.88%;此4種數據庫注釋量分別占總量的94.79%,92.60%,62.15%和78.26%。其中,以NR數據庫為基礎,對所有Isoforms進行序列比對,預測高加索三葉草的同源物種,此處僅展示排名前三的物種(圖2)。結果發現,高加索三葉草與紅三葉的同源相似率最高,達41.09%;其次為蒺藜苜蓿(Medicagotruncatula),相似率為31.22%;此外,與鷹嘴豆(Cicerarietinum)的相似率也有12.10%。

圖2 同源物種分布Fig.2 Homologous plant species classification
為更好地預測和分類高加索三葉草的轉錄組數據,通過KOG,GO和KEGG數據庫對所有Isoforms進行比對與功能注釋。KOG數據庫中,有43 870條Isoforms被注釋成功,大致可分為 25個功能類型(圖3)。其中,涉及Isoforms數量均較多的類別為:信號轉導機制(T)、碳水化合物轉運和代謝(G)、氨基酸轉運和代謝(E)和脂質轉運和代謝(I)等與轉運代謝相關的類別,分別有6 129條、3 348條、2 297條和2 019條。此外,能量的產生和轉化(C)類別中也涉及較多的Isoforms,達2 198條。

圖3 KOG功能注釋及分類Fig.3 KOG functional annotation and classification
GO分析顯示,共有51 905條Isoforms獲得GO功能注釋,涉及生物過程(Biological process,BP)、分子功能(Molecular dunction)和細胞組分(Cellular component,CC)3大類別,進一步分為53個亞類(圖4)。在BP類別中,代謝過程涉及的Isoforms數量最多,有37 331條;刺激響應涉及的Isoforms也較多,達21 392條。在CC類別中,涉及Isoforms數量前三的是細胞、細胞部分和細胞器,均在30 000條以上。在MF類別中,結合和催化活性中涉及的Isoforms數量遠多于其他亞類。
KEGG分類表明,注釋到的Isoforms涉及代謝和遺傳信息處理等5大類,進一步分為19個亞類(圖4)。代謝類別所占比例最大,其中碳水化合物代謝類別富集的Isoforms數量較多,為4 308條;此外,環境信息處理類別中的信號轉導和有機系統類別中的環境適應兩個亞類也值得關注,分別富集到1 494和1 154條Isoforms。進一步經KEGG通路富集分析,發現20 190條Isoforms被富集到135個通路。由圖5可以看出,代謝類別主要包括淀粉和蔗糖代謝等通路。另外,植物激素信號轉導和MAPK信號通路等與環境有關的通路中也富集較多的Isoforms。

圖5 KEGG通路富集分析Fig.5 KEGG pathway analysis注:因KEGG通路較多,僅將各類富集基因數目排名前2的通路進行展示Note:Due to the large number of KEGG pathways,only the pathways with the number of enriched genes listed in not less than the top 2 were showed
利用MISA軟件對高加索三葉草MS樣品的 70 590 條Isoforms進行搜索,共篩選到二、三、四、五和六核苷酸五種類型的SSR位點19 693個,其中三核苷酸類型最豐富(10 273個),五核苷酸類型最少(684個);重復型中以4~7次重復最多(1 473個),其次為8~11 次重復(3 071個)(圖6)。從2.2部分可以看出,大多數全長序列得到了較好的注釋;通過CNCI和CPC軟件對于沒有得到注釋的全長序列進行LncRNA預測,獲得2 668條LncRNA。通過軟件SUPPA的分析,共有2 788個AS被鑒定到,包括可變3′端位點(752個)、可變5′端位點(683個)、可變首外顯子(65個)、可變末外顯子(5個)、外顯子互斥(25個)、內含子保留(1 200個)和外顯子跳躍(58個)7種類型;以內含子保留、可變3′端位點和可變5′端位點三種類型為主。

圖6 SSR分析Fig.6 Analysis of SSR
基于高加索三葉草的全長轉錄本測序數據,將70 590 條全長轉錄本序列通過TF數據庫進行hmmscan比對預測,鑒定到2 917條序列分屬于53個TFs家族;其中,ERF,C3H,bHLH和bZIP這4個TFs家族所含序列較多,均超過200條(圖7);數量居中的TFs所含序列也超過40條,如Dof,TCP和SBP等家族。

圖7 轉錄因子分析Fig.7 Analysis of TFs
2.5.1TaDof家族理化性質和亞細胞定位分析 經比對預測,在高加索三葉草全長轉錄組數據中獲得42條Dof轉錄因子序列,命名為TaDof1~TaDof42(表2)。蛋白理化性質分析顯示,高加索三葉草42個Dof轉錄因子編碼的氨基酸數目為63~495;相對分子質量為7 415.52~54 964.37,最小值和最大值分別對應TaDof7和TaDof6;等電點為5.3~10.38,9個蛋白等電點小于7,為酸性蛋白,33個蛋白等電點大于7,為堿性蛋白;不穩定系數為32.6~73.58,3個蛋白不穩定系數小于40,為穩定蛋白,其余39個為不穩定蛋白;脂溶指數介于35.56~58.24之間;平均親水系數均為負值,表明其屬于親水性蛋白。亞細胞定位顯示,TaDof8和TaDof24定位于葉綠體,TaDof10,TaDof13,TaDof27和TaDof32定位于細胞外基質,其余36個成員均定位于細胞核。
2.5.2TaDof家族系統進化分析 利用MEGA11構建高加索三葉草與擬南芥Dof轉錄因子家族系統進化樹,再通過iTOL進行美化(圖8),結果將高加索三葉草與擬南芥Dof蛋白聚類為11個亞族(A~K)。該進化樹顯示,除A和B亞族均只包含高加索三葉草或擬南芥Dof成員,未表現出兩者之間的親緣關系;而在其他9個亞族中,二者的Dof蛋白可能存在較近的親緣關系,例如C亞族中的TaDof9和DOF4.7蛋白在相同的進化分支,D亞族中的TaDof19,TaDof23和OBP4蛋白處于同一進化分支。進化樹中距離較近的蛋白功能通常是相似的,可據此推測TaDof蛋白的功能。

圖8 Dof蛋白的系統發育樹Fig.8 Phylogenetic tree of the Dof proteins注:紅色字體代表高加索三葉草Dof家族成員;黑色字體代表擬南芥Dof家族成員Note:The protein with red font represented the members of caucasian clover Dof family,and the protein with black font represented the members of Arabidopsis Dof family
2.5.3TaDof家族保守基序分析 通過在線軟件MEME對高加索三葉草Dof蛋白保守結構域進行預測,并利用TBtools軟件將Motif的分布情況可視化。由圖9可以看出,在TaDof家族中共預測得到10個Motif;各成員含有的Motif數量為1~7個,其中除了TaDof24和TaDof37,其余成員均含有Motif1;除了TaDof7,其余成員均含有Motif2。此外,同亞組TaDof成員的Motif組成與分布相同或相似,不同亞組間的Motif組成及分布有所差異。
本研究通過PacBio Iso-Seq和Illumina RNA-Seq兩種測序技術結合的方法,在正常生長期和自然降溫期的高加索三葉草根莖芽混合樣本中獲得平均長度約1 727 bp和N50為1 916 bp的全長轉錄本70 590條。本研究中的轉錄本數量高于人工模擬低溫脅迫下的高加索三葉草轉錄組的數量[9,14],但低于正常生長情況下的高加索三葉草轉錄組的數量[24]。究其原因,前者是對短期低溫脅迫的高加索三葉草葉片進行的轉錄組測序;后者是對正常生長期高加索三葉草主根、水平根莖、主根膨大部位、根莖芽和根莖芽尖5種組織及部位的混樣進行的轉錄組測序;進一步說明轉錄組結果會因植物組織部位、生長階段及環境的不同而發生變化[25]。
與NR數據庫比對后,發現高加索三葉草比對到紅三葉的Isoforms最多,這與二代轉錄組測序的比對一致[9],表明其與紅三葉親緣性較高。本研究發現,與KOG,GO,KEGG數據庫比對后,有6 129條與信號轉導機制相關的Isoforms注釋到KOG數據庫,21 392條與刺激響應相關的Isoforms注釋到GO數據庫,1 494條與信號轉導和1 154條與環境適應相關的Isoforms注釋到KEGG數據庫。逆境信號的感知和轉導是植物適應環境和生存所必需的[26],說明高加索三葉草可能通過調控信號轉導和環境適應途徑相關基因的表達來抵御自然降溫這一環境刺激。碳水化合物代謝途徑中,編碼某些酶的同源基因的表達可能對植物抵御低溫起到重要作用[27]。植物面臨低溫時涉及的代謝通路一般為半乳糖代謝、淀粉和蔗糖代謝和脯氨酸代謝等通路[28]。淀粉和蔗糖代謝通路的某些基因在高加索三葉草響應短期人工模擬低溫脅迫中上調表達[9]。本研究的KEGG注釋結果顯示碳水化合物代謝富集的Isoforms較多,進一步的KEGG通路注釋結果顯示淀粉和蔗糖代謝通路涉及較多Isoforms,推測淀粉和蔗糖代謝等碳水化合物代謝在高加索三葉草適應長時間低溫脅迫扮演著重要角色。此外,本研究KEGG通路注釋結果中的植物激素信號轉導通路富集的Isoforms也較多。植物激素可以通過激素信號與低溫信號的交叉來參與低溫響應[29]。其中,由ABA介導的ABA信號途徑在植物抵抗低溫的過程中也扮演了重要角色[30-31],如馬鈴薯(SolanumtuberosumL.)的StABF1基因可被低溫誘導,還對耐寒起到正向調控的作用[32]。因此,推測高加索三葉草也能通過調節激素信號途徑相關基因來抵抗低溫。
SSR作為一種多態性高、重復性好和特異性強的共顯性遺傳標記,在物種遺傳多樣性分析、親緣關系遠近對比及遺傳圖譜構建等方面具有重要作用[33]。本研究篩選到多種類型的多個SSR位點,可為進一步開發高加索三葉草特異的SSR標記及遺傳多樣性分析等提供數據參考。LncRNA被普遍認為是一類不能編碼蛋白質的RNA,在人類醫學領域受到了較多學者的研究[34]。目前,對植物LncRNA的研究多集中在擬南芥、水稻、蒺藜苜蓿和番茄等模式植物中,涉及在植物生長發育、開花及響應逆境脅迫等方面發揮的作用[35]。本研究通過對高加索三葉草的全長轉錄本進行預測,最終得到2 668 條LncRNA,比Yin等[24]的研究結果多239條,推測這些LncRNA在高加索三葉草面臨長時間低溫脅迫的生理反應調控方面具有一定作用。此外,這些LncRNA也可能有助于高加索三葉草其他方面的研究。真核生物體中,AS事件可調節基因表達和增加蛋白質的多樣性,在植物開花誘導和響應非生物脅迫等方面具有重要作用[36]。本研究中,AS數量為2 788,說明這些AS在高加索三葉草響應低溫脅迫中扮演了重要角色。此外,AS數量低于Yin等[24]對高加索三葉草的研究結果,推測組織來源及低溫環境共同造成了該差異。
植物面臨低溫脅迫時,細胞中的低溫感受器能夠迅速感知環境溫度,隨后通過多種轉導途徑將信息傳遞至細胞核,細胞中能夠響應低溫脅迫的TFs基因開始表達,進而調控下游相關基因的表達,最終影響植物對低溫的應答[37]。目前,多種參與調控植物低溫應答的TFs已經被鑒定出來,如AP2/ERF,bHLH和ZFP等TFs家族的成員[38]。本研究在70 590 條全長轉錄本序列中鑒定到屬于53個TFs家族的2 917條TFs序列,其中含序列數量較多的TFs家族為ERF,C3H,bHLH等。AP2/ERF家族是植物界中最大的轉錄因子家族之一,該家族成員可參與植物對低溫的應答,也可通過調控下游靶基因的表達來增強植物的抗寒能力[39]。C3H型鋅指蛋白是ZFP家族的一個亞家族,在植物的生長發育過程,與植物響應多種脅迫的過程中均占有一席之地[40]。據報道,過表達PvC3H72的轉基因柳枝稷在4℃的耐冷性顯著提高,其電解質滲透率更小,相對含水量更高,并且經-5℃冷凍處理后的轉基因株系存活率顯著提高[41]。此外,作為植物特有的轉錄因子——Dof,也有42條序列在本研究中被鑒定出來。Dof家族成員廣泛參與植物對低溫脅迫的響應過程,過表達編碼Dof的同源基因可提高轉基因植株的耐寒性[18,42]。先前的研究表明,葡萄的25個假定Dof基因中有11個能夠響應冷脅迫,其中Dof17d是受冷脅迫誘導最強烈的基因之一;VaDof17d在葡萄中的過表達可使葡萄的耐寒性增強,而CRISPR/Cas9編輯則導致其耐寒性降低,這些結果表明VaDof17d在葡萄耐寒性中發揮了正向作用,可能是抗寒分子育種的重要候選基因[43]。因此,推測ERF,C3H,Dof等TFs在高加索三葉草響應長時間低溫脅迫的過程中具有重要作用,值得探討。
為后期深入研究轉錄因子在高加索三葉草響應低溫脅迫中的功能,本研究基于全長轉錄組測序結果選取Dof家族從生物信息學分析入手進行初步探討。經過比對分析,本研究從高加索三葉草全長轉錄組數據中篩選到42個TaDof家族成員,該數量高于模式植物擬南芥和近緣種紅三葉[44-45],導致這一差異的原因可能是物種在進化過程中,為了適應環境,基因發生了復制與分化。本研究通過對42個TaDof成員進行了亞細胞定位預測,結果顯示大多數定位于細胞核,說明該家族成員主要在細胞核發揮生物學功能,但是該定位結果還需通過實驗結果來驗證。系統進化樹分析將高加索三葉草與擬南芥Dof蛋白聚類為11個亞族(A~K),其中A亞族的2個高加索三葉草Dof成員未與擬南芥Dof聚在一起,說明這2個Dof蛋白可能是高加索三葉草特有的,其功能有待研究。研究報道,突變體cdf3-1基因使擬南芥對低溫脅迫敏感,而過表達該基因出乎意料地增加了植物對滲透脅迫的抗性[46];過表達與擬南芥CDF1同源的甘藍型油菜BnCDF1基因,可使擬南芥在-8℃冷凍處理2 h后,相較野生型植株,轉基因株系葉片僅輕度萎蔫,存活率顯著增加,且冷響應基因的表達被激活,說明BnCDF1作為調節因子可影響植物的相變和對冰凍脅迫的響應[47]。本研究發現TaDof4和擬南芥CDF1,CDF3蛋白處在相同的進化分支,推測TaDof4可能對高加索三葉草響應低溫脅迫起到一定的正向調控作用,未來可對其功能做進一步解析。TaDof家族的保守基序分析顯示,同亞組TaDof成員的Motif組成與分布相似,表明同亞組成員的功能可能相似;不同亞組間的Motif組成及分布有所差異,這可能代表各亞族間功能的差異。總之,這些生物信息學分析的結果將為高加索三葉草Dof轉錄因子的功能驗證提供理論基礎,尤其是TaDof4可能在低溫脅迫響應中起重要作用,需要進一步驗證。
本研究通過PacBio Iso-Seq和Illumina RNA-Seq相結合,在正常生長期和自然降溫期的高加索三葉草根莖芽混合樣本中獲得70 590條Isoforms。全長轉錄本分析表明:高加索三葉草與紅三葉的同源相似率最高,KOG中涉及與信號轉導機制相關的Isoforms較多,GO條目中涉及與刺激響應相關、信號轉導和環境適應相關的Isoforms較多,KEGG通路中淀粉和蔗糖代謝、植物激素信號轉導通路富集較多的Isoforms,推測高加索三葉草可能通過調控信號轉導、環境適應途徑和碳水化合物代謝相關基因的表達來抵御長時間的低溫脅迫;預測到19 693個SSR,2 668 條LncRNA,2 788個AS和2 917條TFs序列,TFs中的ERF,C3H,Dof等轉錄因子家族含序列數量較多。Dof轉錄因子家族的生物信息學分析結果表明:42個Dof家族成員全部為親水蛋白,大部分定位于細胞核,少數定位于葉綠體或細胞外基質中;系統進化樹分析將高加索三葉草與擬南芥Dof蛋白聚類為11個亞族,TaDof4和擬南芥CDF1,CDF3蛋白親緣關系較近,推測TaDof4可能對高加索三葉草響應低溫脅迫起到一定的正向調控作用,后期可進一步驗證其功能。